《开题报告-基于天津电力数据挖掘的经济预测及评估.docx》由会员分享,可在线阅读,更多相关《开题报告-基于天津电力数据挖掘的经济预测及评估.docx(9页珍藏版)》请在优知文库上搜索。
1、题目:基于天津电力数据挖掘的经济预测及评估学院:软件学院专业:软件工程学生姓名:XXX学号:XXXXXX项目概述:1 .背景在信息技术飞速发展的今天,随着多元化的信息系统被广泛应用于各个行业领域的运营管理之中,时代的发展要求企业必须进行体制的革新,以适应当下日新月异的市场变化。一个优秀的信息系统,能够完善地接受、处理、传输、存储大量在体制运转中产生的各种数据,这是对比于在过去的时代中人力无法企及的一种优势。新的技术必定带来新的理论创新,大数据挖掘分析的重要性随着人们在数据中发掘出越来越多高价值的信息含量而日益受到社会各界的重视,若能对信息系统所收集到的各类数据加以分析,得出具有价值的理论结果,
2、则能更好地指导企业的发展方向,提高企业的运营效率。在过去的十年,电力行业的行情随着经济发展速度的飞驰而迅猛发展,作为关系到社会民生的龙头企业,国家电网必须时刻紧跟国家的发展步伐,以适应不断膨胀的市场需求,从1996年开始,我国发电总量便跃居全球第二,然而近年来,我国的缺电形势重新显现,并从2010年和2011年开始显示出更大范围,更深程度的缺电趋势,在2011年的全国电力需求缺口量达到了3000万千瓦时,国家电网面临的考脸越来越严峻,电力需求,体制改革,节能减排,各个方面的压力要求电力企业必须出台对应的解决方案,不断调整优化企业结构,改善管理模式,适应“大趋势”的要求,与国家经济发展步伐保持一
3、致。2 .项目与实习关系本人于2015年7月至2016年1月在XXX(北京)有限公司实习,主要工作内容为数据挖掘,数据可视化开发,本论题的来源即为在此期间本人参与完成的客户项目之一,由于公司保密协议要求,对外不能提及客户名称或者包括客户数据在内的任何需要保密的公司资料等,因此本论文一切内容皆为本人受该项目启发独自研究完成的分析内容。3 .国内外研究现状在已有的文献记载中,有运用算法模型对宏观经济或某一特定经济领域进行的时间序列预测,例如陈鸿的人工神经网络在宏观经济预测中的应用研究和熊志斌的基于ARIMA与神经网络集成的GDP时间序列预测研究,其中后者较为新颖地提出了结合ARIMA模型与神经网络
4、算法的ARIMA-NN模型,除了以上对时间序列预测研究的文献,也含有许多对电力需求的预测和研究,例如严德群的常州市2006年_2010年电力需求预测研究等等,在基本的电力预测领域和经济预测领域,已有的文献中已经有足够丰富的资料可供参考,但在分析电力消费数据与经济发展水平之间的内在联系上,国内的研究中依然乏善可陈,并且由于电力行业的特殊性,国外更无法有更深入的研究成果展示。4 .基本研究方法及根据查阅文献,在经济预测领域,已经有很多较为成熟的算法可供参考,其中大概包括进行时间序列预测的ARIMA模型算法、神经网络算法、随机森林算法等,能解释多元直接内在联系的多元线性回归。在上述算法中,ARIMA
5、模型主要运用于数据量较大,周期变化性较为明显的条件下进行预测。神经网络算法大多数情况下运用于宏观经济,经济增长预测等领域中,其在模式识别,数据聚类,数据压缩,迫近运算等实际情况中运用广泛,理论上能够达到无限逼近任意非线性函数的效果。随机森林算法主要运用于某些特殊领域下的行业发展预测,而多元线性回归属于计量经济学的范畴,运用范围较广,可分析的相关变量较多。尽管可供选择的预测现成模型算法范围非常之广,然而各个算法思路都有其各自的适应条件,在将模型算法运用于解决实际问题中,必须理解体会不同算法的利弊,在合适的条件下运用恰当的算法,在必要时结合不同算法特点进行组合建模,抑或对已有算法过程进行优化调整,
6、做到最终模型的最优化解。5 .本论文研究内容及意义去年,国家电网成立专项研究,通过电力发展的38个方面,利用电力系统与统计局搜集整理的电力行业消费数据,引入大数据分析、数据挖掘技术,应用于对未来经济发展态势的预测,从而指导政府现有的方针政策,做出更利于行业健康稳定发展的战略决策,调节未来市场的发展方向。本文引用的项目即为该研究中的一部分,旨在通过研究天津地区的电力行业的消费数据,找出电力消费与天津经济发展水平之间的内在联系,从而预测天津地区未来的经济发展态势,为天津电力企业及政府提供参考依据,推进电力行业的稳定健康发展。研究方案:1 .理论基础电力自被发现以来便在人类生产生活中扮演着日益重要的
7、角色,现如今,人类的生活基本上已经离不开电,电力生产的在经济发展过程中也有着不可取代的巨大贡献。电是标志着人类进入现代工业文明的标志,在生产过程中,电力是必需品,在人民生活中,电力是正常生活的基本保隙,在国民经济发展中,电力的发展是工业生产的基础。尤其是在今天人民生活水平日益提高,生活质量逐步改善的环境下,电力的稳定供应是必要条件,因此,研究电力消费数据与经济发展水平的内在联系就具有非常重要的经济与政策指导意义。本文以天津地区电力消费数据与经济发展水平的内在联系研究为背景,从经济景气指数指标体系建立、实证预测分析模型建立和理论成果指导评估三个方面进行了讨论研究。其中,经济景气指数的概念已经有文
8、献提出,文献就有提出如何通过计算经济景气指数来检测宏观经济水平。吉林大学的数量经济研究中心就在2004年成立专项课题组,研究20世纪80年代以来的经济波动及重要经济量的变化情况,找寻经济增长呈现循环状态的原因,到今天,越来越多的人们开始重视经济景气指数在实际应用上的指导意义,更多学者开始踏入该领域进行深入研究。2 .研究方法2.1 多元线性回归模型多元线性回归模型指的是用两个或者两个以上的解释变量进行回归拟合,相比较一元线性回归模型,多元线性回归模型能够解释一个因变量与多个自变量之间的关系,这也是在很多实际需要解决的问题中需要考虑的方面。多元线性回归模型的总体回归函数随机表达式如下:Yi=Bo
9、+B1Xii+B2X2i+BkXki+Ui,i=l,2,n其中,k为解释变量个数,n(n=l,2,k)为回归系数。多元线性回归在运算过程方面与一元线性回归类似,但由于自变量的个数较多,在实际解决过程中一般借助统计软件完成,建立多元线性回归模型时,最事要的一步就是对自变量的组合选择,选择最好的自变量组合能够使得模型能够达到更好的解释效果和预测效果,对实际产生更好的指导意义。一般选择自变量有以下几个原则:L因变量与自变量之间必须存在显著的相关性。2.自变量之间应该呈现低相关性,以避免发生多重共线性。3.自变量与因变量之间的联系必须是有实际意义的,不能只是形式上的相关。2.2 ARIMA模型ARIM
10、A模型全称是自回归差分移动平均模型(AUtOregreSSiVeIntegratedMovingAverageMOeieI,简记ARIMA),是Box和Jenkins于上世纪70年代提出的一种时间序列建模预测方法,其核心思想是将时间序列视为随着时间变化而形成的随机序列,通过数学建模方法来模拟这个序列,运用过去值和现在值来预测未来一定阶段内的数据,其基本模型表达式为:ARIMA(p,d,q),其中AR为自回归,MA为滑动平均,I为差分阶数,P为自向归项,d为差分次数,q为移动平均项,根据原时间序列的特点不同,该算法会建立不同的模型。建模过程一般分为以下几个步骤:1.时间序列平稳性判断,根据时间序
11、列的散点图,折线图,自相关分析图及偏自相关分析图等,以单位根检验来检验该序列的方差,周期性变化。以确定该序列是否为平稳序列C2 .如果序列为非平稳序列(一般经济发展的时间序列都为非平稳性时间序列),则对其进行平稳化处理,如果数据存在一定的增减趋势,则对其进行差分,直至其自相关图和偏自相关图不显著地偏离O03 .根据时间序列平稳化处理的不同结果,结合ARlMA模型的判别规则,建立不同的时间序列预测模型。4 .进行参数估计和假设检验,确定所得到的模型具有统计学意义,并运用模型进行实际预测C5 .3神经网络模型神经网络模型(NN模型)是一种通过模拟生物神经运作方式的一种算法,在现如今的金融经济分析预
12、测领域中,NN模型被广泛的运用于建模研究,其中,BP神经网络模型就是一种应用最多的模型,在BP神经网络的建立过程中,最重要的是网络结构的确定,包括了隐含层和节点个数的确定。一般来说,对于某个函数的学习,采用输入层、隐含层、输出层三层结构(图D即可。图1BP网络模型结构图3.研究步骤3.1 基于电力数据的天津经济景气指数指标体系的构建1.1.1 Ll数据收集要建立一个能合理评估经济景气指数的指标体系,必须要有科学的数据支持,本文搜集的数据主要来源于国家统计局与天津市统计局网站。1.1.2 指标筛选在所收集的数据的各项指标中,需要选取一些能够切实反映天津地区经济发展变化趋势的特征指标,在指标的选取
13、过程中必须要遵循几个筛选的原则:L代表性原则,所选取的指标必须有特定的代表意义,要能够反应某一领域中的变化特征。2.相关性原则,选择的指标数据变化趋势必须要与天津地区的经济发展趋势呈现一定的相关性,保证所选择的指标在模型中有存在的必要性。3.数据量充足原则,尽可能选取有充足样本数据的指标,以有利于建立模型过程的系数训练和验证。5.准确性原则,数据来源必须真实可靠,必须是权威的部门机关发布的数据,防止虚假数据混入。1.1.3 周期研究在经济数据的研究中,周期性是必须要考虑的问题之一,经济周期指的是经济在一定的时间跨度内,呈现出有规律的收缩、膨胀的周期性波动,在经济学上,一般采用四分法来将经济周期
14、内不同的经济形势划分为四个阶段:衰退,萧条,复苏,繁荣。必须根据所采集的数据样本的特点,建立对应的经济周期模型。1.1.4 季节调整季节性也是经济数据样本的一个特征,很多的数据样本都会以季度为一个计量单位,因此,在采用该类样本数据来评估经济景气水平时,应该充分考虑季度的条件,在不同的季度条件下,得出符合该季度经济特征的评估结果。1.2 基于机器学习和多元线性回归思想创建数据清洗模型1.2.1 K折交叉验证K折交叉验证法是属于机器学习的一种重要模型验证法则,它通过对数据的循环交叉采样,在样本数量不够充分的条件下,来验证模型的估计准确性(图2)。图2-K折交叉验证法(图片来源:CSDN)1.2.2
15、 算法修改应用本文打算将K折交叉验证的思想用于数据筛选,由于可能在统计中,会出现较大波动幅度的数据,导致预测的模型不能准确显示出变量之间的相关关系,例如在2006年至2012年的天津电力弹性系数统计(表1)中,就存在明显的波动偏差。天津市2006年-2012年弹性系数0.202006年2007年2008年2009年_2010年2011年2012年表1-2006年至2012年的天津电力弹性系数统计(数据来源:国家统计局)于是,本文采用不同的K折交叉验证的思想,提出K折交叉训练法,使得在现有条件F在牺牲一些不符合主流关系的数据的情况F,训练出拟合优度更高的多元线性回归模型,提高预测精度。1.3 天
16、津市电力数据与经济发展水平关系研究对于店里数据与经济发展水平之间的关系,本文通过三个步骤进行深入研究。第一,基于多元线性回归模型对天津地区电力经济关系的分析,根据改善的数据清洗算法,建立在一定条件下拟合优度最高的多元线性回归模型,根据模型的结果,解释不同自变量与因变量直接的数量关系,从而推导出不同电力因素在经济发展过程中所起的作用。第二,基于ARIMA模型和神经网络模型对天津地区经济形势的趋势预测分析。根据历史数据,运用ARlMA模型和神经网络模型进行建模,运用通过验证的模型,预测高精度的未来的经济数据。第三,基于分析预测模型及经济景气指数指标体系对天津地区未来发展趋势的预测评估,结合多元线性回归模型与第二步中的预测结果,确定最终的预测经济数据,再将数据倒入经济景气指数评估指标体系中,得到最终的预测经济