《一种基于随机森林算法的探明储量预测新方法.docx》由会员分享,可在线阅读,更多相关《一种基于随机森林算法的探明储量预测新方法.docx(10页珍藏版)》请在优知文库上搜索。
1、一种基于随机森林算法的探明储量预测新方法摘要传统的哈伯特模型、翁氏模型等预测方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。文章基于随机森林机器学习模型,建立了一种预测累计探明储量增长趋势的新方法。该方法通过相关性分析找出影响探明储量增长的可量化指标,从而确定模型训练中的输入属性,以同类盆地油田年度累计探明储量为评价单元,建立随机森林机器学习样本数据集,通过调整决策树个数和单个决策树的最大特征数,对模型进行优化训练,从而建立累计探明储量预测模型,成功解决了多因素叠加下储量非线性增长预测的难题。该方法在东部断陷盆地油田年度累计探明储量预
2、测中应用成效显著,预测模型拟合的准确率达到88.19%,具有巨大的推广应用价值。关键词:机器学习;随机森林算法;储量增长趋势;东部断陷盆地;油田年度累计探明储量O引言储量是勘探工作的目标和导向,采用科学的方法预测储量增长趋势和合理确定储量指标对于油公司发展规划编制和勘探工作部署制定具有至关重要的意义。传统的油气储量增长趋势的预测方法包括基于生命旋回的哈伯特模型、翁氏模型、逻辑斯谛模型、高斯模型等,以及基于概率论与蒙特卡洛统计模拟法的油田规模序列法”51,这些方法在国外广泛应用,国内油公司在学习、引进这些方法的同时,也在实际应用过程中建立了适合本地区储量增长特征的方法,例如对储量发现历史数据进行
3、拟合的“帚状”预测模型以及针对勘探发现中储量“多峰”增长问题建立的多旋回哈伯特模型、多旋回高斯模型等51.现有的方法技术存在的主要问题包括:目前广泛应用的哈伯特模型、翁氏模型等预测的是盆地整个油气勘探生命旋回的资源量、最终探明储量,无法有效解决中短期储量增长预测的问题;现有的预测方法主要研究对象为单一盆地或凹陷,缺少对同种类型盆地的研究;目前的方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。随着人工智能技术的快速发展,机器学习等智能算法也开始广泛应用于油气勘探领域。例如半监督模糊C均值机器学习、卷积神经网络(CNN)、支持向量回归与长
4、短期记忆网络等方法被应用于沉积相分析中,进行储层孔隙度、渗透率等的预测。但是在规划计划编制过程中,规划指标的建立等方面仍然缺乏智能方法的应用,主要依靠专家的经验,主观性较强。本文建立的随机森林(RandOmForest,RF)机器学习模型能更为合理地解决多因素影响下的储量增长趋势预测的问题,更为真实地反映储量增长的客观规律,提高储量预测的准确度,从而为年度油气勘探规划储量目标的制定提供更为科学精准的依据。1方法原理1.l基于随机森林算法的机器学习预测模型前人的研究主要是根据石油储量历史数据通过线性拟合建立储量与相关影响参数之间的数学关系,但是储量增长是不同勘探阶段的地质认识、勘探投入、勘探理论
5、和技术进步共同影响的结果。这种多因素影响下的储量增长趋势预测的问题,往往是非线性相关的,普通的数学模型很难建立相关因素与储量之间的关系。因而尝试采用机器学习的方法可以解决更为复杂的、多维度的、非线性的多参数的智能预测问题。机器学习中的一个大类叫集成学习(EnSembIe1.earning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。随机森林就属于集成学习,是将许多棵决策树(DecisionTree)整合成森林并用来预测最终结果的方法。Breiman等在20世纪80年代首先提出了决策树算法,算法的核心是将数据反复分类或回归以减少计算量。这种方法可以高效处理大规
6、模数据集,且预测效果良好。但是这种算法容易忽略数据之间的关联性,容易出现过拟合。2001年Breiman提出随机森林的概念,这种方法是基于单一决策树模型,采用集成学习的思想创造出的一种更为高级的算法,既可以处理属性为离散值的量,也可以处理属性为连续值的量。随机森林,顾名思义,是用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断,看这个样本应该属于哪一类,选择次数最多的类别就是样本预测的那一类(图1)。随机森林模型训练的特点是随机选取样本和特征属性,而随机森林分类的过程近乎
7、是一个黑箱操作,这就在最大程度上避免了主观因素的干扰,从而提高模型算法的模糊性和多样性。且随机森林模型对于解决小样本、非线性、高维度的问题具有简单易行、运算效率高、不易过拟合的优点,其预测效果要远好于线性回归预测3201O由此,对于小样本条件下、非线性多因素影响的中短期探明储量增长趋势的预测,随机森林机器学习模型具有较大优势。随机森林算法预测累计探明储量的核心是机器学习样本集生成、超参数优选、模型训练和预测模型建立。决策树数量和特征属性数是影响随机森林模型性能的两个超参数,这就需要一定数量的样本来保证模型随机抽取数据特征形成多个决策树,构建森林。解剖大量已发现油气藏的储量发现历程,分析储量增长
8、的可量化影响因素,能够提供模型训练所需的随机特征属性,该过程是对模型进行优化的过程,会影响到最终预测结果的精度。因此,随机森林算法更适合解决具有一定历史数据的成熟探区的储量增长预测问题,而对于勘探新区储量增长的预测则具有局限性。1.2样本点的建立及模型参数的选择1.2.1 预测模型样本点的建立选取某油田年度累计探明石油储量作为模型的样本点以及基本评价单元,细化评价单元可以为机器学习算法提供更加充足的样本点,提高最终预测结果的精度和可靠性。盆地的基本石油地质条件是影响探明储量增长的关键性因素。前人研究认为储量的增长受含油气盆地的构造特征影响,不同类型盆地其储量增长特点各异。东部拉张型坳陷盆地储量
9、呈现典型的分段式增长的规律。勘探早期发现大规模构造油气藏,储量实现高速增长,经过初期以背斜勘探为主、主力油田率先发现之后,逐步走向斜坡带和向斜区的中小型地层油气藏、岩性油气藏等非背斜油气藏勘探,储量增长速度明显减小。东部拉张型断陷盆地中,油气藏呈断裂构造背景整体控制下的复杂断块油气田群分布,类型多样、规模小而分散。勘探早期,储量增长的规律性较差,呈现明显的跳跃性变化,随着规律性认识的不断深入,进入储量高速增长阶段,最终进入稳定阶段。西部叠合盆地演化则更为复杂,认识过程更为漫长,呈现出储量多峰增长的特点UK由于同类盆地在成藏条件、储量增长高峰期和持续增储周期上均具有共性特征,因此将以油田为单元的
10、样本点按照盆地进行归类,更符合储量增长的客观地质规律。1.2.2模型参数的选择在随机森林模型中,数据特征属性是模型决策树训练过程中随机属性选择的重要输入变量,会影响最终预测的准确率。变量与预测目标相关性好,才能避免模型过度拟合、收敛性差等问题)资源禀赋是储量增长的物质基础和先决条件,国内众多含油气盆地的勘探实践和综合研究表明,石油地质储量的发现规模和增长速度与盆地的资源规模成明显正相关关系。而实施钻探是推动储量发现最直接的因素,其既可以证实储量规模大小,也可以推动勘探工作进程,促进探明储量的评价落实。因而选取资源量、探井数和进尺数这3类与储量增长密切相关的因素作为建立模型的重要输入特征参数。不
11、同勘探阶段的地质认识、勘探理论和技术进步等定性指标则作为预测的参考标准以及对预测结果的约束指标。因为在实际生产中,针对某些领域持续投入勘探工作量也未能实现勘探突破和储量发现,预示着唯有在理论认识上有新突破才能推动勘探新发现。2实现步骤(1)确定研究的盆地类型,并以油田年度累计探明石油储量为评价基本单元,即模型中的样本点。采用线性拟合方式对各影响因素与年度累计探明石油储量的关系进行分析,寻找相关性强的因素,即主控因素,聚焦规律性,提高计算效率,减少由于误差叠加的放大效应,提高预测结果的精度。根据主控因素、研究的基本单元和盆地类型,建立机器学习样本数据集。(2)对机器学习模型进行训练,获得年度累计
12、探明石油储量预测模型。在使用随机森林算法进行模型训练时,非常重要的步骤是对决策树数量和单个决策树可使用的最大特征值数量进行优选。本文取值决策树数量在10100个之间,特征属性数量根据最大特征值数量分别取1、2、3、4个,交叉验证后选择最优参数。决策树数量为10个时,随机森林模型的识别准确率整体偏低,随机选取的特征属性数量从1个增加至4个时,随机森林的识别准确率有所增长,平均增幅在2%左右,之后随着随机选取特征属性数量的增加,模型的性能趋于稳定。当随机选取的特征属性数量达到4个,决策树的数量超过20个时,随机森林的识别准确率超过了80%,但决策树数量大于45时准确率有所下降(图2)。因此,为保证
13、识别准确率,最终设置随机森林的特征属性数量为4个,决策树数量为45个。(3)采用基于随机森林算法的预测模型对年度累计探明石油储量进行预测,获得预测结果。从学习样本中随机选取90%的样本建立训练集,10%的样本建立验证集,对模型预测的准确性进行验证。3实例分析研究选取233个油田的年度累计探明储量作为模拟的样本点。用于建模的油田样本数据均来源于某公司经过审查、入库的探明储量数据,因而数据来源可靠,准确性较高。并且样本来源广泛,涵盖了某公司东部断陷盆地2016-2020年所有上报探明储量的油田。采用线性拟合的方式对累计探井数、累计进尺数、资源量这3类影响因素与累计探明储量进行相关性分析(图3至图5
14、),可以看出累计探井数、累计进尺数、资源量均与累计探明储量呈现出正相关关系,表明这3种因素与累计探明储量的增长均密切相关,可以作为机器学习中控制因素的输入值。通过分析储量发现的历程及增长的规律,发现某公司东部断陷盆地探明储量主要来源于近5年预测地质储量升级、控制地质储量升级、“出油点”升级等,而储量的5年升级率接近3年升级率,近年来许多上报的储量基本在3年内完成升级,因而研究近期的勘探主要目标、增储领域对于预测年度储量目标及制定年度计划更具有参考价值。统计20162020年各油田的年度累计探井数、累计进尺数及资源量,同时综合考虑探明程度、勘探成效及地质认识程度,对样本数据进行预处理,将探明程度
15、低、地质可靠性较差的样本点以及工作量累积到一定程度而探明储量不再增长的无效点去除,由此建立起机器学习样本数据集。采用机器学习中的随机森林模型进行训练。模拟中总有效样本点为210个油田,随机抽取其中193个油田的年度累计工作量、资源量及探明储量建立训练集,抽取17个油田进行预测验证。在实际储量数据和随机森林预测储量数据交会图中,越靠近斜率线的点与实际数据偏差越小。模拟结果显示,大部分的数据点位于斜率线附近(图6),使用回归模型的性能评价指标一一决定系数(即图6中的下),判定预测数据和实际数据的误差,其原理是通过采用预测值与均值的比例关系公式至公式(3),反映回归预测值与真实值的拟合准确度。计算得
16、到决定系数为08819(即拟合准确率为88.19%),验证预测的准确性较高,基本能够满足东部断陷盆地油田探明储量级别的预测。由于东部断陷盆地探明程度相对较高,而大规模的油田发现难度较大,导致大部分样本点的累计探明储量值处于低值区,这与油气藏发现的客观规律是相吻合的。本研究是一个机器学习的算法应用于储量趋势预测的首次尝试,机器学习的优势在于能够处理大量的数据,为类型多样、影响因素各异、非线性增长的复杂数据分析提供了一种新思路、新方法。当然,采用机器学习算法来预测储量也具有一定的适用条件。首先,要有足够多的样本点,才能保证足够多的数据用于模型的训练,如果储量数据能够细化到层系,有更多的样本点,携带更多的地质信息,就可以更好地提高预测精度。其次,地质认识程度对勘探领域的认识也影响到预测结果,在预测过程中发现,尽管一些工作量在增加,但储量未发生变化,这可能要结合地质认识进行具体分析,也启示决策者要调整勘探目标和部署思路,才能实现勘探突破,取得