《第4章一元线性回归模型.ppt》由会员分享,可在线阅读,更多相关《第4章一元线性回归模型.ppt(51页珍藏版)》请在优知文库上搜索。
1、第四章第四章 一元线性回归一元线性回归模型模型第1节 引言p回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。p高尔登在1889年发表的著作自然的遗传中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。p回归的现代涵义与过去大不相同。一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。(Francis Galton 1822-1911)一、回归分析和相关分析一、回归分析和相关分析(1 1
2、)函数关系。)函数关系。函数关系反映客观事物之间存在着严格的依存关系。在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。(2 2)相关关系。)相关关系。相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点:客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数
3、值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。p相关关系与函数关系又有十分密切的联系。在实际中,由于观测和观测误差等原因,函数关系往往是通过相关关系表现出来的;而在研究相关关系中,又常常是用函数关系作为工具,以相应的函数关系的数学表达式来表现相关关系的一般数量联系。回归分析与相关分析的联系p它们是研究客观事物之间p相互依存关系的两个不可分割的方面p在实际工作中,一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测,同时相关系数还是检验回归分析效果的标准。相关
4、分析需要回归分析来表明客观事物数量关系的具体形式,而回归分析则应建立在相关分析的基础上。p 相关分析是以相关关系为相关分析是以相关关系为对象,研究两个或两个以上对象,研究两个或两个以上随机变量之间线性依存关系随机变量之间线性依存关系的紧密程度。通常用相关系的紧密程度。通常用相关系数表示,多元相关时用复相数表示,多元相关时用复相关系数表示。关系数表示。回归分析回归分析p 回归分析是对具有相关关系的变量之间的回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变(因变量)与其他一个或几个普通变量(自变
5、量)之间的数量变动关系,并据此对因变量进量)之间的数量变动关系,并据此对因变量进行估计和预测的分析方法。由回归分析求出的行估计和预测的分析方法。由回归分析求出的关系式,称为回归模型。关系式,称为回归模型。二、回归模型的种类二、回归模型的种类根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。根据回归模型的形式线性与否,回归模型可以分为线性回归模型和非线性回归模型。根据回归模型所含的变量是否有虚拟变量,回归模型可以分为普通回归模型和带虚拟变量的回归模型。此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。第2节 一元线性回归模型及其假设条件
6、 数学期望p早在17世纪,有一个赌徒向法国著名数学家帕斯卡挑战,给他出了一道题目:甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,赢家可以获得100法郎的奖励。录比赛进行到第三局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?p用概率论的知识,不难得知,甲获胜的概率为1/2+(1/2)*(1/2)=3/4,或者分析乙获胜的概率为(1/2)*(1/2)=1/4。因此由此引出了甲的期望所得值为100*3/4=75法郎,乙的期望所得值为25法郎。这个故事里出现了“期望”这个词,数学期望由此而来。引例引例:测量测量 50 50 个圆柱
7、形零件直径个圆柱形零件直径(见下表见下表)则这则这 50 50 个零件的平均直径个零件的平均直径为为cm14.10501012101115107988尺寸尺寸(cm)8 9 10 11 12数量数量(个)(个)8 7 15 10 10 50p甲仪器测量结果:p p乙仪器测量结果:p p两台仪器的测量结果的均值都是 a。但是用上述结果评价一下两台仪器的优劣,很明显,我们会认为乙仪器的性能更好,因为乙仪器的测量结果集中在均值附近。pE(X-EX)2 这一数字特征就是方差。p一般在计算式用下面公式进行计算 pD(X)=E(X2)-E(X)2协方差和相关系数协方差和相关系数问题问题 对于二维随机变量对
8、于二维随机变量(X,Y):已知联合分布已知联合分布边缘分布边缘分布 这说明对于二维随机变量,这说明对于二维随机变量,除了每个随机除了每个随机变量各自的概率特性以外,相互之间可能还有变量各自的概率特性以外,相互之间可能还有某种联系某种联系.问题是用一个什么样的数去反映这种联系问题是用一个什么样的数去反映这种联系.)()(YEYXEXE数数反映了随机变量反映了随机变量X,Y 之间的某种关系之间的某种关系.A.协方差和相关系数协方差和相关系数定义定义 称称)()(YEYXEXE为为X,Y X,Y 的的协方差协方差.记为记为)()(),cov(YEYXEXEYX可以证明协方差矩阵为半正定矩阵可以证明协
9、方差矩阵为半正定矩阵.为(为(X,Y X,Y)的)的协方差矩阵协方差矩阵.称称)(),cov(),cov()(YVarXYYXXVar若若Var(X)0,Var(Y)0,称称)()(),cov()()()()(YVarXVarYXYVarXVarYEYXEXE为为X,Y 的的 相关系数相关系数,记为,记为)()(),cov(YVarXVarYXXY事实上事实上,),cov(YXXY 若若,0XY 称称 X,Y 不相关不相关.无量纲无量纲 的量的量利用函数的期望或方差计算协方差利用函数的期望或方差计算协方差q 若若(X,Y)为离散型为离散型,ijijjipYEyXExYX11)()(),cov(
10、q 若若 (X,Y X,Y)为连续型为连续型,dxdyyxfYEyXExYX),()()(),cov(q)()()(),cov(YEXEXYEYX)()()(21YDXDYXD一元线性回归模型的基本假设条件:一元线性回归模型的基本假设条件:假设1:假设2:假设3:niuEi,2,1,0)(niuDui,2,1,)(2 njijiuuCovji,2,1,0),(nixuCovii,2,1,0),(第3节 模型参数的估计 p估计模型的回归系数有许多方法,其中使用最广泛的是最小二乘(OLS,Ordinary Least Square)法。1.最小二乘法的思路(1)p为了精确地描述Y与X之间的关系,必
11、须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(作到全面)。pY与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。p在Y与X的散点图上画出直线的方法很多。p找出一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”?p最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。最小二乘法的思路(2)yx纵向距离横向距离距离yxiiA,yxiiB,A为实际点,B为拟合直线上与之对应的点xyyyuiiiii纵向距离最小二乘法的思路(3)p纵向距离是度量实际值与拟合值是否相符的有效手段p点到直线的距离点到直线的垂直线
12、的长度。p横向距离点沿(平行)X轴方向到直线的距离。p纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。p实际值-拟合值=残差(剩余)最小二乘法的思路(4)p纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。p将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。p于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。注意几个概念的区别p误差:即随机干扰项p残差:观测值简去拟合值,是误差的估计值p离差:样本观测值减
13、去样本平均值YX0*7Y9Y*Y7Y9Min2)(iiYY数学形式第4节 估计量的统计特性 p最小二乘估计量 具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量 称为BLUE估计量。ba,ba,第5节 回归方程的检验 p在一元线性回归模型中最常用的显著性检验方法有:n相关系数检验法nF检验法nt检验法 在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差变差。变差产生的原因如下:受自变量变动的影响,即x取值不同对的影响;受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解。一、离差平方和
14、的分解与可决系数一、离差平方和的分解与可决系数三.样本决定系数与拟合优度检验 拟合优度评价p由最小二乘法得出的直线能够反映这些点之间的关系吗?p对这些点之间的关系或趋势反映到了何种程度?p于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。YX0*9Y*Y9YYYyiiYYyiiiiiYYe总离差平方和的分解YYyiiYYyiiiiiYYe由回归方程解释的部分,表示解释变量X对Y的线性影响残差项,表示回归方程不能解释的部分2iy2iy2ie总离差平方和(总离差平方和(TSS)回归平方和(回归平方和(RSS)残差平方和(残差平方和(ESS)总离差平方和
15、的分解平方和分解的意义pTSS=RSS+ESSp被解释变量Y总的变动(差异)=解释变量X引起的变动(差异)+除X以外的因素引起的变动(差异)p如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。样本决定系数(样本决定系数(Determinants of coefficient)R2残差的标准差(或随机项残差的标准差(或随机项的方差的方差2)的最小二乘估计量的最小二乘估计量222)(11iiiyYYTSSESSTSSRSSR2222neSie拟合优度评价相关系数p计算方法与样本决定系数一样p含义有所不同:样本决定系数是判断回归方程与样本观测值拟合优度的一个数
16、量指标,隐含的前提条件是X和Y具有因果关系相关系数是判断两个随机变量线性相关的密切程度,不考虑因果关系。注意英文缩小的含义pTSS:Total Square Sum/总离差平方和pRSS:Regression Square Sum/回归平方和Residual Square Sum /残差平方和pESSError Square Sum /误差平方和(残差平方和)Explain Square Sum /解释平方和(回归平方和)二、回归方程的检验二、回归方程的检验1 1、相关系数检验法、相关系数检验法第第6 6节节 预测区间预测区间在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围。第7节 几个应当注意的问题 一、重视数据的收集和甄别一、重视数据的收集和甄别在收集数据的过程中可能会遇到以下困难:在收集数据的过程中可能会遇到以下困难:n(1 1)一些变量无法直接观测。)一些变量无法直接观测。n(2 2)数据缺失或出现异常数据。)数据缺失