《第11章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第11章多元线性回归.ppt(39页珍藏版)》请在优知文库上搜索。
1、第十一章第十一章多元线性回归多元线性回归(简介简介)当研究两个变量间的线性关系时,直当研究两个变量间的线性关系时,直线回归是回归分析中最简单的一种。线回归是回归分析中最简单的一种。直线回归主要研究一个应变量直线回归主要研究一个应变量(dependent variable)dependent variable)与一个自变量与一个自变量(independent variable)independent variable)间的线性趋间的线性趋势的数量关系。生物医学研究中,常势的数量关系。生物医学研究中,常遇到一个应变量与多个自变量数量关遇到一个应变量与多个自变量数量关系的问题。系的问题。收缩压与年龄
2、和体重的关系、血糖的变化与收缩压与年龄和体重的关系、血糖的变化与胰岛素、生长素等因素有关。胰岛素、生长素等因素有关。肺活量与身高、体重、胸围的关系;肺活量与身高、体重、胸围的关系;胃癌术后效果与癌组织类型、浸润程度、肉胃癌术后效果与癌组织类型、浸润程度、肉芽反应、有无淋巴转移等因素有关;芽反应、有无淋巴转移等因素有关;例如:例如:用线性方程表达一个应变量与一组自变量的数用线性方程表达一个应变量与一组自变量的数量关系,就是多元线性回归量关系,就是多元线性回归(multiple linear multiple linear regression)regression),常简称为多元回归常简称为多元
3、回归(multiple multiple regression)regression)。设应变量为设应变量为Y Y,自变量为:自变量为:X X1 1,X,X2 2,X,Xk k,Y Y与自变量与自变量X X1 1,X,X2 2,X,Xk k 的多元回归,的多元回归,就是指就是指 Y Y与与 k k 个自变量个自变量X X1 1,X,X2 2,X,Xk k 有如下线性关系:有如下线性关系:多元线性回归方程多元线性回归方程:kkxbxbxbbY22110式中式中 是为是为Y Y的估计值或预测值的估计值或预测值(predicted predicted value)value),表示当给定各自变量的值
4、时,因表示当给定各自变量的值时,因变量变量Y Y 的估计值;的估计值;b b0 0 为截距,在回归方程中又称为常数项,为截距,在回归方程中又称为常数项,表示各自变量均为表示各自变量均为0 0 时时Y Y 的估计值;的估计值;b bi i 称为偏回归系数称为偏回归系数(partial regression partial regression coefficient)coefficient),简称为回归系数,表示其简称为回归系数,表示其它自变量不变时,它自变量不变时,X Xi i 每改变一个单位,每改变一个单位,Y Y 的平均变化量。的平均变化量。Y原始资料作多元线性回归分析,原始资料作多元线性
5、回归分析,理论上应满足的条件有:理论上应满足的条件有:1)1)线性线性(linear)linear),因变量与自变量的关系因变量与自变量的关系是线性的是线性的;2)2)独立性独立性(independence),随机误差项在不随机误差项在不同样本点之间是独立的,无自相关;同样本点之间是独立的,无自相关;3)3)正态性正态性(normality),随机误差项服从均随机误差项服从均数为零、方差为数为零、方差为2 2的正态分布;的正态分布;4)4)方差齐性方差齐性(equal variance equal variance,or or homogeneity)homogeneity),随机误差项在不同
6、样随机误差项在不同样本点的方差相等。本点的方差相等。以上四个条件缩写为以上四个条件缩写为LINELINE,与直线回归与直线回归中的条件是相同的。中的条件是相同的。如果目的是建立多元回归方程,探讨自变如果目的是建立多元回归方程,探讨自变量与因变量间的数量关系,而无需根据自量与因变量间的数量关系,而无需根据自变量的取值预测因变量的容许区间、可信变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。区间等,则后两个条件可以适当放宽。多元回归方程的资料格式多元回归方程的资料格式例号例号y x1 x2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn x
7、n1 xn2 xnk例例11.1同样身高的同样身高的20名健康男子的收缩压、年名健康男子的收缩压、年龄和体重的测量结果见表。试建立收缩压与年龄和体重的测量结果见表。试建立收缩压与年龄和体重之间的多元线性回归方程。龄和体重之间的多元线性回归方程。偏回归系数的估计偏回归系数的估计 回归分析的目的之一就是要建立一个回归分析的目的之一就是要建立一个回归方程,以使研究人员能够根据已回归方程,以使研究人员能够根据已知的自变量去预测因变量的取值。知的自变量去预测因变量的取值。回归系数的估计仍然用最小二乘法回归系数的估计仍然用最小二乘法(LSMLSM)。)。(计算方法略)计算方法略)20名建康男子的收缩压、年
8、龄和体征的测定值名建康男子的收缩压、年龄和体征的测定值编号编号 收缩压收缩压y 年龄年龄x1体重体重x2 1 15.60 50 76.0 2 18.80 20 91.5 .20 19.19 43 85.5 用最小二乘法用最小二乘法(method of least square)求解求解b1、b2、b0得:得:211944.00546.06815.0 xxY在该方程中,在该方程中,b b1 1=0.0546=0.0546,表示在体表示在体重不变的前提下,年龄每增加重不变的前提下,年龄每增加1 1岁岁,收缩压平均增加收缩压平均增加0.0546(0.0546(kPa)kPa);b b2 2=0.19
9、44(kg)=0.1944(kg),表示在年龄不变的表示在年龄不变的情况下,体重每增加情况下,体重每增加1 1kgkg,收缩压平收缩压平均增加均增加0.1944(0.1944(kPa)kPa)。211944.00546.06815.0 xxY 截距截距b b0 0=-0.6815=-0.6815,表示表示X X1 1,X X2 2 都为都为0 0 时,时,Y Y 的估计值,在这里没有实际意义,是的估计值,在这里没有实际意义,是根据方程估算出来的值。根据方程估算出来的值。例如,当例如,当X X1 1=50=50,X X2 2=80=80 时,时,=17.60 =17.60,表示对所有年龄为表示对
10、所有年龄为5050岁岁,体重为体重为8080kg kg 的的男子,估计平均收缩压为男子,估计平均收缩压为17.60(17.60(kPa)kPa)。Y211944.00546.06815.0 xxY二、多元回归方程统计学意义的假设检验二、多元回归方程统计学意义的假设检验假设检验包括多元回归方程的假设检验与偏回归系数假设检验包括多元回归方程的假设检验与偏回归系数的假设检验。的假设检验。多元回归方程的假设检验常用方差分析:多元回归方程的假设检验常用方差分析:ANOVA(方差分析表)方差分析表)变异来源变异来源 Sum of squares df Mean Square F PRegression 3
11、3.65 2 16.82 11.31 0.0008Residual 25.28 17 1.49 Total 58.93 19误差回归MSMSF 偏回归系数的假设检验用偏回归系数的假设检验用t检验:检验:Coefficients(参数估计)参数估计)Unstandardized Standardized Coefficients Coefficients Bota b std.Error b t P 偏回归系数偏回归系数b的标准误标准化偏回归系数的标准误标准化偏回归系数Constant -0.6815 3.9017 -0.175 0.8634 X1 0.0546 0.0241 0.3667 2.
12、268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003ibisbt 三、标准化偏回归系数三、标准化偏回归系数 由公式求出的偏回归系数的绝对值大小与自由公式求出的偏回归系数的绝对值大小与自变量的度量单位有关,变量的度量单位有关,因而偏回归系数大的因而偏回归系数大的应变量未必对应变量应变量未必对应变量y y的线性影响也大。的线性影响也大。当自变量之间不存在较强的相关关系时,可当自变量之间不存在较强的相关关系时,可以计算每一个自变量的标准化偏回归系数。以计算每一个自变量的标准化偏回归系数。具有较大标准化偏回归系数的自变量对应变具有较大标准化偏回归系数的自变量对
13、应变量量y y的影响相对较大。的影响相对较大。yissiijiibSSlbb总四、复相关系数四、复相关系数在多元线性回归分析中,直接建立在多元线性回归分析中,直接建立Y Y 与与全部自变量之间的线性回归模型通常是全部自变量之间的线性回归模型通常是不可取的,因为不能说这些自变量对建不可取的,因为不能说这些自变量对建立回归模型都是必要的。因此,在建立立回归模型都是必要的。因此,在建立回归方程的过程中有必要考虑对变量进回归方程的过程中有必要考虑对变量进行筛选,从许多自变量中挑选出对行筛选,从许多自变量中挑选出对Y Y 有有影响的自变量,有利于提高回归方程的影响的自变量,有利于提高回归方程的质量。质量
14、。一般来说,当回归方程中自变量个数增加,一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。拟合精度,但势必导致模型的复杂性。因此,在建立回归方程时,要遵循一个原因此,在建立回归方程时,要遵循一个原则,即则,即“少而精少而精”。具体地说:既要尽可。具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一些量化的标准来衡型简单。这就需要有一些量化的标准来衡量所得模型的量所得模型的“优劣优劣”。目前,常用的衡量方程目前,常用的衡量方程“优劣优劣”的标准有
15、的标准有复相关系数。复相关系数。复相关系数复相关系数(multiple correlation multiple correlation coefficient)coefficient)用用R R表示,取值在表示,取值在0 01 1之间。表之间。表示示m m个自变量共同对应变量个自变量共同对应变量y y的相关密切程度。的相关密切程度。复相关系数的平方复相关系数的平方R2称为决定系数称为决定系数(coefficient of determination),R2表示回归平方和在表示回归平方和在y的的总变异中所占的比重。用总变异中所占的比重。用R2可定量评价可定量评价y的总的总变异能被变异能被x1、
16、x2、xm解释的比重。解释的比重。如本例如本例R2=0.5709,可知由年龄和体重可解释该组观察可知由年龄和体重可解释该组观察对象收缩压变异的对象收缩压变异的57.09%。总回归SSSS)()(22yyyyR2)(yy 2)(yy 第二节多元逐步回归第二节多元逐步回归一、多元逐步回归的基本思想一、多元逐步回归的基本思想逐步回归逐步回归(stepwise regression)stepwise regression)是从众多的回是从众多的回归模型中快速地选出归模型中快速地选出“最优最优”模型而提出的一模型而提出的一种策略算法。种策略算法。它是将自变量一个一个引入方程,引入变量的它是将自变量一个一个引入方程,引入变量的条件是该自变量对应变量的影响经检验是有统条件是该自变量对应变量的影响经检验是有统计学意义的。用该方法建立的回归方程一般具计学意义的。用该方法建立的回归方程一般具有较少的自变量,且变量之间具有较强的相关有较少的自变量,且变量之间具有较强的相关关系的可能性较少。关系的可能性较少。当人们应用回归分析去处理实际问题时,当人们应用回归分析去处理实际问题时,经常碰到的重要问题就是选择自变