《第3讲回归分析方差分析.ppt》由会员分享,可在线阅读,更多相关《第3讲回归分析方差分析.ppt(92页珍藏版)》请在优知文库上搜索。
1、主要内容 线性回归线性回归 曲线回归曲线回归线性回归 一、相关分析与回归分析共性:都是研究两变量之间的关系差异:相关模型回归模型变量要求X,Y都是随机变量要求X为可控变量,Y变量是随机变量分布 X,Y呈正态分布 变量X的条件分布为正态分布二、回归方程的数学模型u模型模型u一元回归一元回归:用于分析两个变量之间的关系用于分析两个变量之间的关系u基本形式是:基本形式是:和和斜斜率率分分别别是是回回归归直直线线的的截截距距1010,bbxbbYii 二、回归方程的数学模型二、回归方程的数学模型模型求解:最小二乘法模型求解:最小二乘法 2201miniiiiif xyyybb x0101201bb0i
2、iiiiinbbxybxbxx y为了求回归系数,令一阶导为,得1201()()()iiixxyybxxbyb x从中解出:二、回归方程的数学模型二、回归方程的数学模型u模型模型u多元回归:用于分析多元回归:用于分析n个自变量和因变量个自变量和因变量y之间的关系之间的关系u基本形式基本形式niniiixbxbxbbY 22110二、回归方程的数学模型二、回归方程的数学模型模型求解:模型求解:即要使得即要使得分别对b0,b1,bn求导,并令其一阶导数为0,可求出各个系数2201 122()()()miniiiiiinnif xyyybb xb xb x二、回归方程的数学模型二、回归方程的数学模型
3、u估计标准误差估计标准误差 是估计是估计y与对应观测值之间的离差平方和与对应观测值之间的离差平方和222()()()TyyiiiiiERSSLyyyyyySSSSERSSSS其中为回归平方和为剩余变差三、回归方程的选择三、回归方程的选择SPSS中可以提供多元回归分析,当有多中可以提供多元回归分析,当有多个自变量时,不仅要求与因变量相关,个自变量时,不仅要求与因变量相关,且要求自变量之间彼此尽可能独立。且要求自变量之间彼此尽可能独立。SPSS中提供了五种选择:强制进入强制进入ENTER:进入进入“Enter”所选择的所选择的自变量将全部进入建立的回归方程中,该项自变量将全部进入建立的回归方程中,
4、该项为默认方式。为默认方式。强制退出强制退出REMOVE:后进入后进入“Remove”将将进入方程中的自变量同时剔除。进入方程中的自变量同时剔除。向前选择向前选择FORWARD:条件进入条件进入“Forward”根根据据“Options”对话框中的设置,在方程中每次加对话框中的设置,在方程中每次加入一个变量,直至加入所有符合条件的变量为止。入一个变量,直至加入所有符合条件的变量为止。向后剔除向后剔除BACKWARD:先进入先进入“Backward”自自变量框中所有的变量同时进入方程中,然后根据变量框中所有的变量同时进入方程中,然后根据“Options”对话框中的设置,剔除某个变量,直对话框中的
5、设置,剔除某个变量,直到所建立的方程中不再含有可剔除的变量为止。到所建立的方程中不再含有可剔除的变量为止。逐步回归逐步回归STEPWISE:逐步进入逐步进入“Stepwise”根据根据“Options”对话框中的设置,在方程中加入对话框中的设置,在方程中加入或剔除单个变量直到所建立的方程中不再含有可或剔除单个变量直到所建立的方程中不再含有可加入或剔除的变量为止。加入或剔除的变量为止。四、功能菜单菜单“Analyze-Regression-Linear”对话框 设置因变量:设置因变量:“Dependent”栏 设置自变量:设置自变量:“Independent(S)”框 “Selection Va
6、riable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals输出每个回归系数的95%可信区间;选中covariance matrix会输出各个自变量的相关矩阵和方差、协方差矩阵。Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。Mode
7、l fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2,标准误及方差分析表。R squared change复选框:显示模型拟合过程中R2、F值和p值的改变 Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)散点图“DEPENDNT”
8、因变量。“ZPRED”标准化预测值。“ZRESID”标准化残差。“DRESID”删除残差。“ADJPRED”修正后预测值。“SRESID”学生氏化残差。“SDRESID”学生氏化删除残差。“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:“Histogram”用直方图显示标准化残差。“Normal probability plots”比较标准化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。SAVE按钮按钮“Predicted Values”预测值
9、栏选项:预测值栏选项:Unstandardized 非标准化预测值。在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。Standardized 标准化预测值。Adjusted 调整后预测值。S.E.of mean predictions 预测值的标准误。“Distances”距离栏选项:距离栏选项:Mahalanobis:距离。Cooks”:Cook距离。Leverage values:杠杆值。“Prediction Intervals”预测区间选项:预测区间选项:Mean:区间的中心位置。Individual:观测量上限和下限的预测区间。“Save t
10、o New File”保存为新文件:保存为新文件:选中“Coefficient statistics”项将回归系数保存到指定的文件中。“Export model information to XML file”导出统计过程中的回归模型信息到指定XML文件。“Residuals”保存残差选项:保存残差选项:“Unstandardized”非标准化残差。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。“Influence Statistics”统计量的影响。统计量的影响。“DfB
11、eta(s)”删除一个特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”标准化的DfBeta值。“DiFit”删除一个特定的观测值所引起的预测值的变化。“Standardized DiFit”标准化的DiFit值。“Covariance ratio”删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率。设置回归分析的一些选项,有:Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P值或F值来设置。Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。M
12、issing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。五、实例分析考察Employee data.sav文件中,当前工资水平与过去工资,受教育年数,来公司工作时间、工种、来公司前的工作经验和是否为少数民族的线性模型。结果分析 回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回
13、归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std.Error of the Estimate 估计标准误差。方差分析表,F值为1622.118,显著性概率是0.000,表明回归极显著。1928.206 1.909*yBeginningSalary曲线回归的目标选定某一用方程表达式的曲线,使得实际数据与理论数据之间的差异尽可能的小。自变量与因变量的关系 本本质质非非线线性性关关系系本本质质线线性性关关系系非非线线性性关关系系简简单单线线性性关关系系注:注:本质线性关系又称为拟线性关系,可转换成线性本质线性关系又称为拟线性
14、关系,可转换成线性关系,用最小二乘法的方法求出相关系数关系,用最小二乘法的方法求出相关系数 本质非线性关系不能转换成线性关系,仅能用迭本质非线性关系不能转换成线性关系,仅能用迭代方法或分段平均值法求出代方法或分段平均值法求出SPSS功能 本质线性关系Analyze-Regression-Curve Estimation 本质非线性关系Analyze-Regression-NonLinear变量关系的基本研究方法 做散点图,初步判断两变量的关系,曲线的形状 从专业的知识分析,或长期积累的经验找出变量间的函数类型 建立简单、适合的模型SPSS中的11种拟线性模型模型名称模型名称回归方程回归方程相应
15、的线性回归方程相应的线性回归方程Linear(线性线性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(复合复合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对对数数)Y=b0+b1ln(t)Y=b0+b1mCubic(三次三次)Y=b0+b1t+b2t2+b3t3SPSS中的11种拟线性模型(续)模型名称模型名称回归方程回归方程相应的线性回归方程相应的线性回归方程S型型Y=eb0+b1/tLn(Y)=b0+b1/tExponential(指数指数)
16、Y=b0*eb1*tLn(Y)=ln(b0)+b1tInverse(逆逆)Y=b0+b1/tY=b0+b1/tPower(幂幂)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑逻辑)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)曲线选择的一般准则 如果因变量的一阶差分如果因变量的一阶差分(Yi-Yi-1)接近常数,用接近常数,用直线拟合直线拟合 如果因变量的二阶差分如果因变量的二阶差分(Yi-Yi-1)-(Yi-1-Yi-2)接接近常数,用抛物线拟合近常数,用抛物线拟合 如果一阶差分倾向于按固定的百分比如果一阶差分倾向于按固定的百分比Yi/Yi-1减减少,用修改指数曲线少,用修改指数曲线 对数一阶差分接近常数,用拟合指数函数对数一阶差分接近常数,用拟合指数函数 对数二阶差分接近常数,用拟合指数抛物线对数二阶差分接近常数,用拟合指数抛物线 若倒数的一阶差分几乎按固定的百分比变化,若倒数的一阶差分几乎按固定的百分比变化,用逻辑曲线用逻辑曲线功能菜单 菜单Analyze-Regression-Curve Estimation