《第1章双变量回归分析.ppt》由会员分享,可在线阅读,更多相关《第1章双变量回归分析.ppt(50页珍藏版)》请在优知文库上搜索。
1、经济类核心课程计量经济学第一章 双变量回归分析1.回归分析的性质F.加尔顿(Francis Galton)发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。K.皮尔逊(Karl Pearson)证实了加尔顿普遍回归定律。皮尔逊收集了1000多个家庭的身高记录。他发现对于父辈高的群体,儿辈的平均身高低于他们的父辈,而对于父辈矮的群体,儿辈的平均身高则高于他们的父辈。用加尔顿的话来说,就是“回归到中等(regression to mediocrity)”。1.2 回归的现代定义回归分析是关于研究一个应变量对另一个解
2、释变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。回到加尔顿的例子:我们关心给定父辈身高,找出儿辈平均身高的变化。值得注意的是,随着父辈身高的增加,儿辈平均身高也在增加。60 70 80父辈的身高(英寸)儿辈的身高(英寸)807060如左图所示:注意对应任一给定的父辈的身高,都有一个儿辈身高的分布范围。我们勾画了一条通过这些散点的一条直线,以表示儿辈平均身高如何随父辈身高的增加而增加的。这条线我们称为回归线(regression line)。1.3 统计关系和确定性关系如上例中,我们不像经典物理学中考虑的那种变量之间的函数或确定性依赖关系
3、。在回归分析中,我们考虑的是一类所谓统计依赖关系。在变量之间的统计关系中,我们主要处理是随机变量,也就是有着概率分布的变量。例如,作物收成对气温、降水、阳光及施肥的依赖关系是统计性质的。这个性质的意义在于:这些解释变量固然重要,但是并不能够使农业学家准确地预测作物的收成。一则这些变量的测量是有误差的,二则还有一大堆影响到作物收成的变量,我们无法一一识别出来。1.4 回归和因果关系虽然回归分析是研究一个变量对另一些变量的依赖关系,但它并不一定意味着因果关系。用肯达尔和斯图亚特的话说:“一个统计关系式,无论多强也不管多么有启发性,却永远不能确立因果方面的联系,对因果关系的理念,必须来自统计学以外,
4、最终来自这种或那种理论。”例如在诸多有趣的经济指标中有一个“裙子长短指数”。这个指数用女性穿着裙子的长短来判断经济的好坏。当经济不好时,失业率增加,女性就业更困难,短裙看起来能年轻、活力一些,有利于寻求新的职位。但是我们不能因此得到结论:在座的女生穿着短裙是因为经济不好,或者因为在座的女生穿着短裙所以中国的经济不好。从逻辑上说,统计关系式本身不意味着任何因果关系。1.5 数据的性质用于经济分析的数据有三类:时间序列、横截面数据、和混合数据。时间序列:对一个变量在不同时期取值的一组观测结果。例如随着年份GDP的变换、上证综合指数的每日变换等等。基于时间序列数据的计量分析,大多假定所依据的时间序列
5、数据是平稳的(stationary)。粗略地来说,如果一组时间序列数据,它们的均值和方差在时间上没有系统的变化,就是平稳的。要记住:每当你使用时间序列数据时,你都要问一问它的平稳性如何。横截面数据:对一个或多个变量在同一个时点上收集的数据。例如2012年9月份,全国主要30个省份的生猪的产量和价格、全国每个高校2012届大学生的就业率等等。横截面数据也有其自身的问题,特别是异方差(heterogeneity)的问题。有的省(湖南、江西)生产巨量的生猪,而有的省(北京和广东)生产量很少。当我们的统计分析中包含有相异的单元时,我们必须考虑尺度效应,以避免把苹果和桔子混同了起来。混合数据:兼有时间序
6、列和横截面数据。例如人口普查数据,从1980到2012年中国人口总量变化是时间序列,而2012年不同省市人口的分布则是横截面数据。2.双变量回归分析2.1 一个例子假定一个国家人口总体由60户家庭组成,X表示家庭周可支配收入,Y表示家庭周消费支出。X,每周家庭收入(美元)Y,每周家庭消费支出8010012014016018020022024026055657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515
7、717518088113125140160189185115191共计32546244570767875068510439661221将这60户按照收入划分为10组,分析每一组的家庭消费支出。对应每周收入在80美元的5户,每周家庭消费支出在55到75美元不等。上表中,每一纵列给出的是在给定的收入水平X下的消费支出Y的分布。就是说,它给出了以X为给定值条件下的Y的条件分布。散点图根据表格的数据制成。现在,对于给定的X,例如X=80美元,有5个Y值:55、60、65、70和75美元。因此给定X=80得到这些消费支出中任何一个概率是1/5。用符号来表示:对于Y的每一条件概率分布,我们能够计算出来它的
8、均值,称为条件均值或条件期望,记做E(Y|X=Xi),并读作“在X取特定Xi值时Y的期望值”。给定X=80,Y的期望或条件均值为:51)80|55(XYp6551755170516551605155回到散点图中,我们更清楚的发现,虽然,每个家庭的消费支出都不相同,但随着收入的增加,消费水平平均地说也在增加。观测红色的粗圆点代表的Y的各个条件均值,这种察觉就更加的直观和形象。散点图表明,这些条件均值都落在一个有正斜率的直线上。这个直线叫做总体回归线。更简单地说,它是Y对X的回归。在几何意义上,总体回归线就是当解释变量取给定值时,应变量的条件均和或期望的轨迹。2.2总回归函数(PRF)从前面的讨论
9、中,我们清楚地看到,每一条件均值E(Y|Xi)都是Xi的一个函数,用符号来表示:其中,f(Xi)表示解释变量Xi的某个函数(在上例中,E(Y|Xi)是Xi的一个线性函数),我们把 称为总体回归函数(PRF)或简称为总体回归(PR)。它说明在给定的Xi下,Y的分布均值与Xi有函数关系,或者,它表明了Y的均值是怎样随X而变化的。PRF的函数形式是一个经验方面的问题,例如,经济学家会提出消费和收入有线性关系,这样PRF常常被写作其中12为不知的参数,称为回归系数,也分别被称为截距和斜率系数。)()|(iiXfXYE)()|(iiXfXYEiiXXYE21)|(2.3 线性的含义对线性的第一种解释是,
10、Y的条件期望是Xi的线性函数,从几何意义上来看,这时回归曲线是一条直线。按照这种解释,诸如E(Y|Xi)=1+2+Xi2回归函数,变量X以指数2出现,就不是线性的。对线性的第二种解释是,Y的条件期望E(Y|Xi)是诸参数的一个线性函数,它可以是也可以不是X的线性函数。这样E(Y|Xi)=1+2Xi2就算一个线性模型,而E(Y|Xi)=1+22Xi2则不是。在我们这里,我们认为“线性”是对参数为线性的情形,因此,从现在开始“线性”一词总是指对参数为线性的一种回归(即参数总是以它的1次方出现);对解释变量X则可以是或不是线性的。E(Y|Xi)=1+2Xi和E(Y|Xi)=1+2Xi2都是线性回归模
11、型(LRM)。2.4 总回归方程的随机设定前面的例子中,随着家庭收入的增加,家庭消费支出平均的也增加。但是对个单独某个家庭来说,消费支出水平却不一定随收入水平增加而增加。例如,对应于每周100美元的收入水平,有一家庭的消费支出是65美元,而对应于收入80美元的两户家庭,消费支出为70和75美元。那么,在个别家庭的消费支出与给定的收入水平之间存在什么关系呢?我们在前面的分析中看到,给定收入水平Xi的个别家庭的消费支出围绕在收入为Xi的所有家庭的平均消费支出的周围,也就是围绕在它的条件均值。因此我们可以把个别家庭的Yi围绕在它的期望值的离差(deviation)表述如下:iiiiiiXYEYXYE
12、Y)/()/(或ui被称为随机干扰或随机误差项。给定X水平,个别家庭的支出可以表示为两个成分之和(1)E(Y|Xi)代表相同收入水平的所有家庭的平均消费支出,这个成分被称为系统性或确定性成分,以及(2)ui被称为随机的或非系统性的成分。也可以理解为ui是所有影响Y的,但是没能包含到回归方程中的,被忽略变量的替代变量。方程:表示一个家庭的消费支出,线性地依赖于它收入加上干扰项。给定X=80,各个家庭的消费支出表达为:iiiiiXXYEY21)/(321322121211)80(65)80(60)80(55uYuYuY回到刚才的式子:现在,如果两边取期望,则:式中,E(Y|Xi)是条件期望,是一个
13、常数,故EE(Y|Xi)就是它自身。而E(Yi|Xi)就是E(Y|Xi),故:因此,假定回归线从Y的条件均值通过,就意味着,ui的(以给定的Xi为条件的)条件均值为零。iiiXYEY)/()|()/()|()/()|(iiiiiiiiXEXYEXEXYEEXYE0)|(iiXE2.5 随机干扰项的意义干扰项是从模型中没有包含的而又集体地影响着Y的全部变量的替代物。为什么我们不构造一个包含尽可能多的变量的复回归模型?理由如下:1.理论的含糊性;2.数据的欠缺;3.核心变量和周边变量;4.人类行为的内在随机性;5.“不好的”替代变量;6.节省的原则;7.错误的函数形式。为了所有上述理由,我们在随后
14、的学习中会发现,随机干扰项在回归分析中扮演了极其重要的角色。2.6 样本回归函数(SRF)注意我们前面的例子中,我们假定一个国家是由60户家庭组成的,故我们得到的是一个关于这60户家庭收入和消费支出的完整的总体数据。在大多数实际情况下,我们仅有对应于某些固定的X的Y值的样本,这样我们就必须面对抽样问题,例如有下列两组抽样数据:Y1Y2X705580658811090901209580140110118160115120180120145200140135220155145240150175260问题:我们能够从抽样数据中预测整个总体中对应于给定的X的平均每周消费支出Y吗?将表中的数据描绘为散点
15、图:在散点图中,我们画了两根样本回归线以尽量好的拟合这些散点。SRF1是根据第一个样本的数据,而SRF2是根据第二个样本的数据。那么,两条回归线中那一条代表“真实”的总体样本回归线?事实上,我们不可能有绝对把握知道哪一条代表了真实的总体回归线。因为抽样的波动,它们最多也不过是真实总体回归线的一个逼近而已。一般的来说,从N个不同样本中会得到N个不同的样本回归函数,并且这些样本回归函数不大会一样。类比总体回归函数,我们能够写出一个代表样本回归线的样本回归函数(SRF):这里 分别是Y,1和2的估计量。iiiXXfY21)(21,和Y我们还能把SRF表达为它的随机形式:其中,除了定义过的符号外,表示
16、样本残差项。概念上,类似于ui,并且可把它当做是ui的估计量,把它引入到SRF中的理由和把ui引入PRF中来,是出于同一个理由。至此,总的来说,回归分析仅仅是依据某总体的一个样本的时候比不是这样的时候多。我们的主要目的是根据样本回归函数(SRF):来估计总体样本函数(PRF):iiiiuXXfY)(21iu iu iiiuXY21iiiXY21对于X=Xi,我们有一个观测值Y=Yi。我们可以根据SRF将所观测的Yi表达为:也可以根据PRF,表达为:现在,对于图中所示的Xi,明显过高的估计了那里的真实的E(Y|Xi),类似的对于A点左侧,SRF低估了真实的PRF,而右侧则恰好相反。iiiuYYiiiuXYEY)|(iY现在,重要的问题:既然认识到了样本回归函数不过是总体回归函数的一个近似,能不能设计一种规则或方法,使得这种近似是一种尽可能“接近”的近似?尽管真实的总体回归函数永远不得而知。3.双变量回归模型:估计问题3.1 普通最小二乘法原理回顾双变量总体回归函数(PRF):这个PRF不是直接可以观测的。我们通过样本回归函数(SRF)去估计它:这里,是Y的估计值(条件均值)。iiiXY2