《第07章离散因变量和受限因变量模型.ppt》由会员分享,可在线阅读,更多相关《第07章离散因变量和受限因变量模型.ppt(69页珍藏版)》请在优知文库上搜索。
1、1 通常的经济计量模型都假定因变量是连续的,但是在通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值。连续变量的假设相反,此时因变量只取有限多个离散的值。例如,人们对交通工具的选择:地铁、公共汽车或出租车;例如,人们对交通工具的选择:地铁、公共汽车或出租车;投资决策中,是投资股票还是房地产。以这样的决策结果投资决策中,是投资股票还是房地产。以这样的决策
2、结果作为被解释变量建立的计量经济模型,称为离散被解释变作为被解释变量建立的计量经济模型,称为离散被解释变量数据计量经济学模型(量数据计量经济学模型(models with discrete dependent variables),或者称为离散选择模型),或者称为离散选择模型(discrete choice model,DCM)。2 在实际中,还会经常遇到因变量受到某种限制的情况,在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得的样本数据来自总体的一个子集,可能这种情况下,取得的样本数据来自总体的一个子集,可能不能完全反映总体。这时需要建立的经济计量模型称为受不能完全反映总体。
3、这时需要建立的经济计量模型称为受限因变量模型(限因变量模型(limited dependent variable model)。这两。这两类模型经常用于调查数据的分析中。类模型经常用于调查数据的分析中。3 在离散选择模型中,最简单的情形是在两个可供选择的在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(择模型(binary choice model)。在实际生活中,我们经常)。在实际生活中,我们经常遇到二元选择问题。例如,在买车与不买车的选择中,买车遇到二元选择问题。例如,在买车与不买
4、车的选择中,买车记为记为1,不买记为,不买记为0。是否买车与两类因素有关系:一类是车。是否买车与两类因素有关系:一类是车本身所具有的属性,如价格、型号等;另一类是决策者所具本身所具有的属性,如价格、型号等;另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。定特征的个体作某种而不
5、作另一种选择的概率。4 为了深刻地理解二元选择模型,首先从最简单的线性概率为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为:模型开始讨论。线性概率模型的回归形式为:(7.1.1)其中:其中:N是样本容量;是样本容量;k是解释变量个数;是解释变量个数;xj为第为第j个个体特征个个体特征的取值。例如,的取值。例如,x1表示收入表示收入;x2表示汽车的价格表示汽车的价格;x3表示消费表示消费者的偏好等。设者的偏好等。设 yi 表示取值表示取值为为0和和1的离散型随机变量:的离散型随机变量:式(式(7.1.1)中)中ui为相互独立且均值为为相互独立且均值为0的随
6、机扰动项。的随机扰动项。ikikiiiuxxxy2211Ni,2,101iy择(如不买车)如果作出的是第二种选择(如买车)如果作出的是第一种选5 令令pi=P(yi=1),那么那么 1-pi=P(yi=0),于是于是(7.1.2)又因为又因为E(ui)=0,所以,所以 E(yi)=xi,xi=(x1i,x2i,xki),=(1,2,k),从而有下面的等式:从而有下面的等式:(7.1.3)iiiipyPyPyE)0(0)1(1)(xiiiipyPyE)1()(6 式式(7.1.3)只有当只有当xi 的取值在的取值在(0,1)之间时才成立,否则就会之间时才成立,否则就会产生矛盾,而在实际应用时很可
7、能超出这个范围。因此,线性产生矛盾,而在实际应用时很可能超出这个范围。因此,线性概率模型常常写成下面的形式:概率模型常常写成下面的形式:(7.1.4)此时就可以把因变量看成是一个概率。此时就可以把因变量看成是一个概率。那么扰动项的方差为:那么扰动项的方差为:(7.1.5)或或 (7.1.6)0,01,110,xxxxiiiiip)1()1()()1()(222iiiiiiippppuExx)(1)()(22iiiiyEyEuE7 由此可以看出,误差项具有异方差性。异方差性使得参由此可以看出,误差项具有异方差性。异方差性使得参数估计不再是有效的,修正异方差的一个方法就是使用加权数估计不再是有效的
8、,修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值最小二乘估计。但是加权最小二乘法无法保证预测值在在(0,1)之内,这是线性概率模型一个严重的弱点。由于上述问题,之内,这是线性概率模型一个严重的弱点。由于上述问题,我们考虑对线性概率模型进行一些变换,由此得到下面要讨我们考虑对线性概率模型进行一些变换,由此得到下面要讨论的模型。论的模型。假设有一个未被观察到的潜在变量假设有一个未被观察到的潜在变量yi*,它与,它与xi之间具有之间具有线性关系,即线性关系,即 (7.1.7)其中:其中:ui*是扰动项。是扰动项。yi和和yi*的关系如下:的关系如下:(7.1.8)*i
9、iiuyx0001*iiiyyy8 yi*大于临界值大于临界值0时,时,yi=1;小于等于;小于等于0时,时,yi=0。这里把。这里把临界值选为临界值选为0,但事实上只要,但事实上只要xi包含有常数项,临界值的选择包含有常数项,临界值的选择就是无关的,所以不妨设为就是无关的,所以不妨设为0。这样。这样 (7.1.9)其中:其中:F是是ui*的分布函数,要求它是一个连续函数,并且是的分布函数,要求它是一个连续函数,并且是单调递增的。因此,原始的回归模型可以看成如下的一个回单调递增的。因此,原始的回归模型可以看成如下的一个回归模型:归模型:(7.1.10)即即yi关于它的条件均值的一个回归。关于它
10、的条件均值的一个回归。)()()0(),|0()(1)()0(),|1(*xxxxxxiiiiiiiiiiiiFuPyPyPFuPyPyPiiiuFyx19 分布函数的类型决定了二元选择模型的类型,根据分布函分布函数的类型决定了二元选择模型的类型,根据分布函数数F的不同,二元选择模型可以有不同的类型,常用的二元选择的不同,二元选择模型可以有不同的类型,常用的二元选择模型如表模型如表7.1所示:所示:ui*对应的分布对应的分布分布函数分布函数F 相应的二元选择模型相应的二元选择模型标准正态分布标准正态分布Probit 模型模型逻辑分布逻辑分布Logit 模型模型极值分布极值分布Extreme模型
11、模型)(x)1(xxee)exp(1xe10 二元选择模型一般采用极大似然估计。似然函数为二元选择模型一般采用极大似然估计。似然函数为 (7.1.11)即即 (7.1.12)对数似然函数为对数似然函数为 (7.1.13)01)()(1 iiyyiiFFLxxNiyiyiiiFFL11)(1)(xxNiiiiiFyFyL1)(1ln)1()(lnlnxx11 对数似然函数的一阶条件为对数似然函数的一阶条件为 (7.1.14)其中:其中:fi 表示概率密度函数。那么如果已知分布函数和密度表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值,求解该方程组,就可以得到参数的函数的表达式及样
12、本值,求解该方程组,就可以得到参数的极大似然估计量。例如,将上述极大似然估计量。例如,将上述3种分布函数和密度函数代种分布函数和密度函数代入式入式(7.1.14)就可以得到就可以得到3种模型的参数极大似然估计。但是种模型的参数极大似然估计。但是式式(7.1.14)通常是非线性的,需用迭代法进行求解。通常是非线性的,需用迭代法进行求解。二元选择模型中估计的系数不能被解释成对因变量的边二元选择模型中估计的系数不能被解释成对因变量的边际影响,只能从符号上判断。如果为正,表明解释变量越大,际影响,只能从符号上判断。如果为正,表明解释变量越大,因变量取因变量取1的概率越大;反之,如果系数为负,表明相应的
13、的概率越大;反之,如果系数为负,表明相应的概率将越小。概率将越小。NiiiiiiiiFfyFfyL10)1()1(lnx12 考虑考虑Greene 给出的斯佩克特和马泽欧(给出的斯佩克特和马泽欧(1980)的例子,在例子中分析了某种教学方法对成绩的有效的例子,在例子中分析了某种教学方法对成绩的有效性。因变量(性。因变量(GRADE)代表在接受新教学方法后成)代表在接受新教学方法后成绩是否改善,如果改善为绩是否改善,如果改善为1,未改善为,未改善为0。解释变量。解释变量(PSI)代表是否接受新教学方法,如果接受为)代表是否接受新教学方法,如果接受为1,不,不接受为接受为0。还有对新教学方法量度的
14、其他解释变量:。还有对新教学方法量度的其他解释变量:平均分数(平均分数(GPA)和测验得分()和测验得分(TUCE),来分析新),来分析新的教学方法的效果。的教学方法的效果。13 估计二元选择模型,从估计二元选择模型,从Equation Specification对话框中,对话框中,选择选择Binary估计方法。在二元模型的设定中分为两部分。首估计方法。在二元模型的设定中分为两部分。首先,在先,在Equation Specification区域中,键入二元因变量的名区域中,键入二元因变量的名字,随后键入一列回归项。由于二元变量估计只支持列表形字,随后键入一列回归项。由于二元变量估计只支持列表形
15、式的设定,所以不能输入公式。然后,在式的设定,所以不能输入公式。然后,在Binary estimation method中选择中选择Probit,Logit,Extreme value选择三种估计选择三种估计方法的一种。以例方法的一种。以例7.1为例,对话框如图为例,对话框如图7.2所示。所示。1415 例例7.1的估计输出结果如下:的估计输出结果如下:16 参数估计结果的上半部分包含与一般的回归结参数估计结果的上半部分包含与一般的回归结果类似的基本信息,标题包含关于估计方法(果类似的基本信息,标题包含关于估计方法(ML表示极大似然估计)和估计中所使用的样本的基本表示极大似然估计)和估计中所使
16、用的样本的基本信息,也包括达到收敛要求的迭代次数。和计算系信息,也包括达到收敛要求的迭代次数。和计算系数协方差矩阵所使用方法的信息。在其下面显示的数协方差矩阵所使用方法的信息。在其下面显示的是系数的估计、渐近的标准误差、是系数的估计、渐近的标准误差、z-统计量和相应统计量和相应的概率值及各种有关统计量。的概率值及各种有关统计量。17 在回归结果中还提供几种似然函数:在回归结果中还提供几种似然函数:log likelihood是对数似然函数的最大值是对数似然函数的最大值L(b),b是是未知参数未知参数 的估计值。的估计值。Avg.log likelihood 是用观察值的个数是用观察值的个数N去除以对去除以对数似然函数数似然函数L(b),即对数似然函数的平均值。,即对数似然函数的平均值。Restr.Log likelihood是除了常数以外所有系数被是除了常数以外所有系数被限制为限制为0时的极大似然函数时的极大似然函数L(b)。LR统计量检验除了常数以外所有系数都是统计量检验除了常数以外所有系数都是0的假的假设,这类似于线性回归模型中的统计量,测试模型整体的设,这类似于线性回归模型中的统