《第7章自变量选择与逐步回归.ppt》由会员分享,可在线阅读,更多相关《第7章自变量选择与逐步回归.ppt(64页珍藏版)》请在优知文库上搜索。
1、第七章第七章自变量选择与逐步回归 多元线性回归方程中所包含的自变量是根据专多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。意义的自变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回归效果选择自变量的基本思路是:尽
2、可能将回归效果显著的自变量选入回归方程中,将作用不显著的特显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。别是与自变量有密切线性关系的自变量排除在外。第七章 第一节第一节机动 目录 上页 下页 返回 结束 自变量选择对估计和预测的影响在多元线性回归模型中,自变量的选择实质上就是模型的选择。),0(2nnINXY其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,qp,qpXXX其中:其中:Y是是1n的观测值,的观测值,p是是1p未知参数向量,未知参
3、数向量,pX是是pn结构矩阵,并假定结构矩阵,并假定pX的秩为的秩为p。下面的回归模型称为选模型:下面的回归模型称为选模型:),0(2nppINXYtxxx,21txxx,211 tp现从现从这这t个变量中选个变量中选t变量,不妨设变量,不妨设矩阵矩阵X可作如下的分块(记:可作如下的分块(记:),那么对全模型中的参数,那么对全模型中的参数 和结构和结构自变量的选择问题可以看成是这样二个问题自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模
4、型,这就表示在果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。个角度来看一看由于模型选择不当带来的后果。在点)(1txxx点上的预测值为 yx 为了讨论方便起见,先引入几个记号:2,全模型中参数 的估计:1()X XX Y211()()Y IX X XX YnR X其中:R(X)为矩阵X的秩。2,在选模型中参数
5、在选模型中参数 的估计:的估计:121()1()()ppppppppppX XX YY IXXXXYnR X),(),()(11tppqpxxxxxxx在在 上的预测值上的预测值pppxy分块矩阵求逆公式:DCCBA1111111111111111111111111)()(CBCDBCDCDBBCCDBBCDBCDDBCDCDBCCDBDCCBA均方误差的概念 对无偏估计常用 来衡量估计量的好坏,而对有偏估计则相应采用均方误差 Var)(EMSE定理定理(对估计的影响)(1)全模型为真时,E,除了0q或0qpXX外,ppE(2)()()ppDD为非负定矩阵;(3)当q()qqD 为非负定矩阵时
6、,)()pppppED(为非负定矩阵;(4)时等号成立。仅当0,q22EEp 定理定理(对预测的影响)(1)当全模型为真,则xyE,除0q外xyEp(2))()(ppxyDxyD(3)当()qqqD 为非负定矩阵时,2)()(ppxyExyD 注注:由上述定理说明,若全模型为真的而误用选模型 ppx作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用 为非负定矩阵来()qqqD 表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使
7、模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第七章 第二节第二节机动 目录 上页 下页 返回 结束 自变量选择方法自变量选择准则自变量选择准则若一个多元回归的问题中有若一个多元回归的问题中有t可供选择的自变量,那可供选择的自变量,那么所有可能的回归方程有么所有可能的回归方程有 2t-1个,下面给出一些自个,下面给出一些自变量选择的准则,希望能从变量选择的准则,希望能从 2t-1个回归方程中选择个回归方程中选择一个最合理的方程一个最合理的方程.对全模型,记:对全模型,记:SSTSSERXXXXHYHIYSSE1,)(,)(21对选模
8、型,记:对选模型,记:SSTSSERXXXXHYHIYSSEppppppppp1,)(,)(21准则准则1 平均残差平方和达到最小.pnSSEPp2pSSE随随p的增加而减少的增加而减少,但但pn也随也随p的增加而减少。但前面的的增加而减少。但前面的ix,由于其对由于其对y的作用很显著的作用很显著,使使pSSE减少得减少得较快较快,能使能使pnSSEp随的随的p增加而增加而减少减少,但当但当ix对对y的作用不明显时的作用不明显时,随差随差p的增加,的增加,pSSE减少的很慢,而减少的很慢,而pn1随随p的增加继续增加,这就使的增加继续增加,这就使()PSSEnp随随p的增加而增加,取的增加而增
9、加,取()PSSEnp的最小值所对应的的最小值所对应的p。当然相应入选。当然相应入选p个变量是所有个变量是所有t个变个变量是所有自变量中最显著的。(其显著性由计算量是所有自变量中最显著的。(其显著性由计算t统计量或统计量或 F统计量得出)。统计量得出)。准则准则 2 修正的复相关系数修正的复相关系数2PR达到最大。达到最大。其中其中2PR的定义为的定义为:)1()(12nSSTpnSSERPP pnnRp1)1(12 可以证明在可以证明在0q时,时,22qppRR,故取,故取2pR达到最达到最大的方程为好。大的方程为好。准则准则3 预测偏差预测偏差 的方差的方差 2)(pppnJJ准则准则4
10、平均预测均方误差平均预测均方误差Sp达到最小。达到最小。211pppnS准则准则5 Cp统计量统计量22sSSEnpCpp其中三其中三s2是全模型中是全模型中 2的无偏估计的无偏估计.准则准则 6 预测平方和预测平方和pPRESS达到最小达到最小。先给出PRESS的定义。设n组数据的回归模型为 XY。现考虑在建立回归方程时略去第i组数据 niiiyyyyY111)(niiixxxxx111)(对应的1n组数据的回归模型为)()(iiXY。此时的最小二乘估计为)()(1)()()()(iiiiiYXXX 用)(i去预测第i点,此时的预测偏差为)(ie)()(iiiixye 定义预测平方和为2)(
11、iePRESS 记:)()()()(iiiixye为全模型用除i点之外,剩下的1n个点作参数估计后,对i点的预测的偏差;iih为XXXXH1)(的 第i个 对 角 元 即)(1)(iiiixXXxh。显然,iinjiijjnijjjjiixxXXxxxxxxXX11)()(iiiinjjjnijjjjiiyxYXyxyxyxYX11)()(pPRESS为 选 模 型 的 预 测 平 方 和 为2)(ippePRESS,由 上 述 的 推 导 可 知,iipipiphee1)(,其中,ipe为选模型的对应的第i点残差,iiph相应为pppppXXXXH1)(的第i个对角元。准则准则7 AIC准则
12、准则 AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)当误差为正态的条件下,全模型的对数似然函数为:)()(21)2ln(2),(222XYXYnLL 而和2的极大似然估计为:)()(1YXXXL nSSEL2 从而对数似然函数的极大值为:2)ln(2)/2ln(22)2ln(2maxnSSEnnnnnSSEnL 略去常数不计,则有:mSSEnAIC2ln 对选模型而言,有:pSSEnAICpp2ln 第七章 第三节第三节机动 目录 上页 下页 返回 结束 逐步回归一、全局选择法一、全局选择法对自变量各种不同的组合所建立的回归方程进行比对自变量各种不
13、同的组合所建立的回归方程进行比较,从全部组合中挑出一个较,从全部组合中挑出一个“最优最优”的回归方程。的回归方程。uR2可用来评价回归方程优劣。可用来评价回归方程优劣。u随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量个数影响,应对R2进行校正。进行校正。u所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。2cR总总残残)(MSMS11pn1nR11R 22c 2cR1.1.校正决定系数校正决定系数 选择法选择法2.2.选择法选择法pCP为方程中自变量个
14、数。为方程中自变量个数。最优方程的最优方程的Cp期望值是期望值是p+1。应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。mp 1p2nMSSSC mpp )()(残残残残 是由是由 个自变量作回归的误差个自变量作回归的误差平方和,平方和,是从全部是从全部m个自变量的回归模个自变量的回归模型中得到的残差均方。型中得到的残差均方。pSS)(残)(mppmMS)(残当由 p 个自变量拟合的方程理论上为最优时,pC的期望值是 p+1,因此应选择pC最接近 p+1 的回归方程为最优方程。如果全部自变量中没有包含对 Y 有主要作用的变量,则不宜用pC方法选择自变量。总胆固醇 甘油三脂
15、 胰岛素 糖化血 血糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)序号 i X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9
16、.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 27名糖尿病人