《主成分分析在经济问题中的应用毕业论文.docx》由会员分享,可在线阅读,更多相关《主成分分析在经济问题中的应用毕业论文.docx(31页珍藏版)》请在优知文库上搜索。
1、2013年度本科生毕业论文(设计)主成分分析在经济问题中的应用院(系):数学学院专业:数学与应用数学年级:学生姓名:学号:导师及职称:2013年6月2013AnnualGraduationThesis(Project)oftheCollegeUndergraduatePrincipalcomponentanalysisintheapplicationoftheeconomicproblemsDepartment:DepartmentofMathematicsMajor:MathematicsandAppliedmathematicsGrade:2009StudenfsName:Xiaojiao
2、ChenStudentNo.:090440242Tutor:KuohuiYeJune,2013摘要在现实生活中,有很的问题含有过多的变量,而这些变量之间又或多或少存在一定的关系,但它们之间的联系有的较为明显,有的又联系甚微。主成分分析能够找出其中联系甚微的变量,并用它们近似的表达出整体的联系,从而起到减少变量个数的作用,进而简化模型,起到用局部表示整体的作用。关键词:主成分分析法;变量筛选;降维;SPSS数据处理AbstractInreallife,thereareproblemswithtoomanyvariables,andbetweenthesevariablesismoreorless
3、thereisacertainrelationship,butthecontactbetweenthemthereareevident,somehadlittlecontact.Principalcomponentanalysistofindoutthecontacteffectofvariables,andtheyexpresstheirapproximateintegrallink,soastohavetheeffectofreducethenumberofvariables,andsimplifiedmodel,havetheeffectofusinglocalsaidoverall.K
4、eywords:Principalcomponentanalysis;Variableselection;Dimensionreduction;1.inearmodel引言11.主成分分析法的介绍211主成分分析法的描述21.2主成分分析的基本原理22.主成分分析法降维的计算方法52.1主成分的确定52.Ll数据的标准化52.1.2相关系数矩阵的计算62. 1.3计算特征值与特征向量62.1. 4计算主成分贡献率与累计贡献率71.1 .5计算主成分的载荷矩阵81.2 .6计算新的主成分82. 2通过主成分分析对变量进行筛选82.1.1 求相关系数矩阵的特征值与特征向量92.1.2 2.2确定贡
5、献率最小的变量92.1.3 根据需求确定新的变量1111121221253.主成分分析法的应用实例3. 1自变量的确定3.1 模型的建立3.2 模型的优化3.5结果分析参考文献引言对于许多问题,往往不同的变量之间存在着一定的相关关系,可以理解为它们之间存在一定的重叠关系。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍,耗费人们的精力与时间。倘若能够将变量的个数进行削减,这必然导致信息丢失,使得信息不完整。为了有效的减少变量的数量,并且保存着绝大多数的数据信息,人们在不断的探索着。然而主成分分析法,便是一种行之有效的方法,它能够有效的减少变量的个数,并且在各行各业中都得到应用。
6、例如,一些熟悉的例子如物价指数、货币工资比、生活费用指数、商业活动指数等,如何最大程度的保留信息的完整度,这就成了一个问题。主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:1)主成分个数远远少于原有变量的个数;2)主成分能够反映原有变量的绝大部分信息;3)主成分之间应该互不相关;4)主成分具有命名解释性。总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。1 .主成分分析法的介绍1.1 主成分分析法的描述主成分分析也称主分量分析,旨在利用降维的思想,把多指
7、标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析法是把给定的一组具有相关性的变量通过线性变换转成另一组不具有相关性的变量,并将这些新的变量按照方差依次递减的顺序排列,使得新变量中的第一个变量具有最大的方差,第二个
8、变量次之,按照此规律,为新变量中所有的变量进行排序,直至第n个变量,对应的变量称之为第一主成分,第二成分,第n主成分。针对一个指定的问题,新变量中的每一个变量都包含着原始数据的一部分信息,而这部分信息在原始变量中又占据着一定的比例,这个比例也可以称之为权重。然而往往许多问题中所包含的变量过多,这对于人们分析问题是不利的,虽然这些新变量可以将原始数据完整的表示出来,但用这些新变量中的少数几个变量也能够近似的反映出原始变量的所包含的信息,将原始信息的以综合评价的方式体现出来,并且保持着原始信息85制以上的内容。这样就可以减少变量的个数,方便人们对问题进行分析,这样的方法,我们也称之为主成分分析法。
9、1.2 主成分分析的基本原理主成分分析实际上是基于线性方程组和线性变换理论体系上的一种方法。它是一种将原来的多个变量化为少数几个综合指标进行分析,达到降低维数、减少变量,使得模型的复杂程度降低的计算方法。给定一组变量指标X,则XX,X=.2,X-nJnl其中X是n行1列的矩阵,n代表有多少个变量。假设它们的系数矩阵为A,则ai,lai,2a,nA_a2,!a2,2a2.nA.,_aPaP2aP-11Jpxn其中A是P行In列的矩阵,p代表有多少组数据,n代表有多少个变量。给定一组由变量X产生的变量Y,则YY=,_y11JpI由此,可以得到等式AX=Y,即aUa2.1ai.2a2.2aLna2,
10、nX1X2Yly25ap.2ap11-n_Xn_nl_Vn_PXl可以得到对应的方程组ai,1xiai.2x2ai,11xn=ypa2jX1+a2X2.+a2,nXn=y2,ap.lXl+ap.2X2+ap,nXn=yp.利用初等变换的方法容易得到方程组的解为X=y1+br+Xr+t1r+2Xr+2+.+b1llXn,X2=y2+b2r+Xr+1+b2r+2X什2+*+b1Xn,xr=yrbr,r+1xr+1br,r+2xr+2.br,nxn.其中X、X2、X线性无关,且X1是XE、Xm、Xn的所有线性组合中方差最大的组合,X2是XE、Xr,2、Xn的所有线性组合中方差仅次于Xl的组合,Xr是
11、Xe、Xl2、Xn的所有线性组合中方差最小的组合,同时也是该方程组的解,所以这几个变量能够完整的解释该方程组,从方程组解的形式上容易看出,X、X2、Xl被表示成了Xe、Xe、Xn和的形式,所以XcX2、Xr实际上是由Xh、Xm、Xn综合决定的,故称X1SX2、Xr为原变量的综合指标并用Z1sZ2、Zr来表示,即z1=y1+bz2=y2bX.1x+b1,r2xr2+btlXll,l+b2,r+2xr2+-+bl,nx11:zr=yrbr,r+1x.1br.r.2xr+2brnXn其中Z是综合指标,且Z是P行1列的矩阵,P代表有多少个综合指标的个数。即Z1Z2B称为ZcZ2、Zr的载荷矩阵。即b.
12、r+lbb2.rl包bb将ZcZ2、Zr按照Xe、Xm、Xn的方差由大到小排列,像这样的二、Z2、Zr称为第一主成分、第二主成分、第r主成分,而这些主成分Z的载荷矩阵是原变量X的系数矩阵的r个较大的特征值所对应的特征向量。2 .主成分分析法降维的计算方法2.1 主成分的确定2.1.1 数据的标准化在获取的数据中,不同变量往往会存在着不同的单位,即量纲,量纲的选取方法不同必然导致最终结果的不同,这就要求我们对原始数据进行一定的处理。最常用的方法就是将数据进行无量纲化处理,也称数据的标准化。首先将数据进行标准化,对原始数据数据标准化的必要性:进行主成分分析进行综合评价时,所选取的样本指标往往具有不
13、同的量纲,像这样的数据是不具有可加性的。即使部分的指标量纲相同具有可加性,也并不是说就能够直接进行相加,因为结果往往受到现实条件所约束,进行这样的操作,所得到的结果往往是不切实际的。举一个简单的例子,例如,对于某个班级同学的学习效果进行分析时,各门功课的成绩都是以分数的形式表现出来的,分数本身并没有单位,只是一种量的体现,对各门分数直接的进行相加,这样就可以知道该班的学习效果了。事实上,这种看法是不正确的,总分在一定程度上是可以反映学习效果,但由于各学科所涉及的难易程度以及所占的分量并不一定相同,从而导致各学科的成绩的性质是不相同的,因而成绩不能直接相加,必须先计算整个年级该课程的绝对分数,再
14、将该班的该课程分数与年级的绝对分数进行对比,然后再进行综合,这样的结果才是较为合理的。而数据的标准化,就是进行这一项工作,由此可见,对原始数据进行标准化是有必要的。X按照下列的方式进行标准化Xij =,i = l,2,SiP,Jpn,p,=l,2,其中IPIPIj=-EXijO;=g(x广可)21=1,2,p,=l,2,Pi=IP-Ii=I得到无量纲数据矩阵2.1.2 相关系数矩阵的计算相关系数矩阵是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。如果用R表示系数矩阵,Q表示系数矩阵的分量,由相关系数的定义,我们可以知道也表示的是第i个变量与第j个变量是否在一条之间上。若rij=l,则这两个变量正相关;若小二-1,则这两个变量负相关;若口尸0,阳一M=O4,i=l,2,mK4啕1=12=扁4j7=R=-RRi=ii(/?)(q)=(4)(4)RT) = (Y)(Y)44 4o = L2, ,m