《第9章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第9章相关与回归分析.ppt(55页珍藏版)》请在优知文库上搜索。
1、统计学教程第9章 相关与回归分析 2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 9.3.4 多元线性回归方程的 9.1.1 相关关系的概念 显著性检验 9.1.2 相关关系的度量 9.3.5 运用多元线性回归方9.2 9.2 一元线性回归一元线性回归 程进行估计 9.2.1 一元线性回归模型 9.4 9.4 非线性回归的线性化非线性回归的线性化 9.2.2 一元线性回归方程的最小二乘估计 9.2.3 一元线性回归方程的拟合优度 9.2.4 一元线性回归方程的显著性检验 9.2.5 运用一元线性回归方程进行估计9.3 9.3 多元线性
2、回归多元线性回归 9.3.1 多元线性回归模型 9.3.2 多元线性回归方程的最小二乘估计 9.3.3 多元线性回归方程的拟合优度第9章 相关与回归分析 9.1 9.1 相关关系相关关系统计学教程2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 9.1.1 相关关系的概念1 变量的函数关系和相关关系 变量之间的数量关系可区分为确定性与不确定性两类。数值型数据的确定性数量关系称为函数关系。函数关系遵循严格的因果律。如在国民经济核算中“国内生产总值=消费+积累+进出口净额”,或者“国内生产总值=固定资产折旧+劳动者报酬+企业盈利+生产税净额
3、”,反映的是国民经济核算中的数量衡等关系,这些都是变量之间确定性的数量关系,即函数关系。数值型数据的不确定性的数量关系称为统计关系,即相关关系。相关关系也是一种客观存在的变量之间的数量关系,反映了变量之间的一种不严格的数量依存关系。一般来说,相关关系遵循广义的因果律。相关关系(Correlation)是指变量之间客观存在的不确定的数量关系。2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 2相关分析与回归分析 相关关系是统计学研究的主要对象之一。在现代统计学中围绕相关关系已经形成了两个重要的统计方法相关分析和回归分析。虽然,相关分析和回
4、归分析都是以相关关系为研究对象,由于其研究相关关系内容的侧重,和所反映相关关系特征的角度不同,两者存在以下区别。(1)描述的方式不同 相关分析主要采用相关系数来度量变量之间的相关关系。通过相关系数数值的大小来度量相关关系的强弱。回归分析要采用通过拟合回归模型来度量变量之间的相关关系。通过回归模型来反映相关关系的具体形式。有回归模型的一般形式为 (9.2)xfy2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 (2)变量的地位不同 相关分析中变量之间的地位是对等的、可以相互置换的,变量与变量的相关系数,等价于变量与变量的相关系数。回归分析
5、中变量之间的地位是不对等、不能相互置换的,在回归模型方程式(9.2)等号右边的变量是解释等号右边的变量取值的因素,因此称之为自变量;等号左边的变量是被自变量所解释的因素,所以称之为因变量。自变量(Independent Variable)是指在回归分析中,解释因变量的一个或一组变量,因此也被称为解释变量,一般用x表示。因变量(Dependent Variable)是指在回归分析中,被解释的变量,因此也被称为被解释变量,一般用y表示。2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 (3)描述的内容不同 相关分析通过相关系数描述,所反映的
6、是变量之间相关关系的方向和大小程度。回归分析借助回归模型不仅描述了变量之间相关关系的方向和大小程度,还刻画了变量之间相关关系的的具体形式,回归模型可以用于预测和控制。(4)变量的性质不同 相关分析中的变量都是随机变量。在回归分析中,因变量是随机变量;自变量可以是随机变量,也可以是非随机的确定性变量。当自变量为随机变量时,不满足普通最小二乘方法估计回归方程的要求,需要采用工具变量方法,或者最大似然方法来进行估计。因此,在采用普通最小二乘估计时,总是规定自变量为非随机的确定性变量。2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 9.1.2
7、 相关关系的度量1散点图 散点图(Scatter Diagram)是指由变量数值在直角坐标系中的分布点构成的二维数据分布图。2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 散点图的作用就是通过两个数值型变量之间在二维平面的直角坐标中的分布图形,粗略地把握变量之间相关关系的基本态势。例如变量之间的线性特征越显著,说明其相关关系越强,反之则越弱;两个变量之间的数值呈同方向变化为正相关,否则为负相关。借助散点图还可以概略地区分和识别变量之间的非线性相关的具体类型,为回归分析确定回归方程的具体形式提供依据,这也是散点图的重要功能。例如,通过散
8、点图展示的图形特征,初步地分辨出相关关系是直线,还是二次曲线、三次曲线、指数曲线、对数曲线、S曲线等。所以,散点图不仅是相关分析,也是回归分析中经常使用的最简便的基本分析工具。2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 2相关系数 相关系数(Correlation Coefficient)是度量两个变量之间线性相关的方向和强度的测度。散点图只是粗略地刻画两个变量之间线性相关关系的方向、强度和形式,不能确切地度量变量之间的相关关系的密切程度。相关系数可以具体度量变量之间的相关关系的密切程度,并且用一个相对数数值表述出来,使之具有直接
9、的可比性。一般使用样本统计量来估计总体相关系数的数值水平,有 (9.3)计算相关系数的式(9.3),由三项离差平方和的比值构成。yyxxxyLLLr 2023年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 Lyy为变量y的离差平方和,有 (9.4)Lxx为变量x的离差平方和,有 (9.5)Lxy为变量x和变量y的离差乘积和,有 (9.6)2112121niiniiniiyyynyyyL2112121niiniiniixxxnxxxLniiniiniiiniiixyyxnyxyyxxL111112023年11月16日/上午10时20分统计学教程
10、第9章 相关与回归分析 9.1 9.1 相关关系相关关系 相关系数的取值范围为 。当相关系数的取值为正时,说明变量和变量的数值变化是同方向的,即为正相关;若相关系数的取值为负,则说明变量和变量的数值变化是反方向的,即为负相关。相关系数的正负取值取决于Lxy的正负。并且,当相关系数的绝对值越是趋近于1,表明变量和变量的相关程度越高,称之为强相关;反之,当相关系数的绝对值越是趋近于0,表明变量和变量的相关程度越低,称之为弱相关。相关系数仅反映线性相关。例如 Y=X 2 显然Y与X是关系密切的,但是由相关系数得出的是不相关的结论。所以用相关系数度量相关性时,超出了线性范围就会出现误导。11r2023
11、年11月16日/上午10时20分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 例例9.2 9.2 根据例9.1的表9.1中的数据。表9.1某证券市场价格指数与A证券价格 要求要求 计算A证券价格与该证券市场价格指数的相关系数。解解 采用式(9.3),可得A证券价格与该证券市场价格指数的相关系数为87749.0r月份证券市场价格指数/%A证券价格/元1184912.452185414.483187013.564185511.42518309.86618208.52718057.55818018.05917988.6810183010.081118459.4512186512
12、.482023年11月16日/上午10时21分统计学教程第9章 相关与回归分析 9.1 9.1 相关关系相关关系 3相关系数的显著性检验 相关系数是总体相关系数真值的样本统计量。因此,相关系数只是总体相关系数的在一定样本分布下的估计值,尤其是当计算相关系数的样本容量较小时,相关系数的数值的变异增大。所以,必须对不同样本容量情况下计算出来的相关系数的统计显著性进行假设检验。相关系数的抽样分布,服从于自由度为n-2的t分布。一般采用T检验统计量对相关系数进行显著性检验,有 (9.7)2122ntrnrT2023年11月16日/上午10时21分统计学教程第9章 相关与回归分析 9.1 9.1 相关关
13、系相关关系 例例9.3 9.3 根据例9.1和例9.2中样本容量n=12,和A证券价格与该证券市场价格指数的相关系数r=0.87749。要求要求 在显著性水平为0.05下,对该相关系数进行显著性检验。解解 采用式(9.7)对相关系数进行显著性检验。(1)提出假设(2)计算检验统计值(3)进行统计判断 由于检验统计值大于t分布的临界值,所以拒绝原假设,认为A证券价格与该证券市场价格指数之间存在显著的相关关系。00:H01:H7859.587749.0121287749.02T第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归统计学教程2023年11月16日/上午10时21分统计学教
14、程第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 9.2.1一元线性回归模型 1理论模型 从回归模型的一般形式,式(9.2)出发,一元线性回归模型可以表述为 (9.8)回归模型(Regression Model)是指因变量依赖自变量和随机误差项取值的方程。因变量的取值由两个部分构成。一部分反映了自变量的变动引起的线性变化;另一部分为剩余变动,反映了不能为自变量和因变量之间的线性关系所解释的其它剩余的变异。在理论上,回归分析总是假定一元线性回归模型,即式(9.8)具有统计显著性,有效地解释了因变量的变动,剩余变动为不可观测的随机误差。因此,称式(9.8)为一元线性回归理论模型。
15、xy102023年11月16日/上午10时21分统计学教程第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 关于随机误差,线性回归理论模型具有以下三项假定。(1)0均值。剩余变动为不可观测的随机误差,其数学期望为0。(2)方差齐性。对于所有的自变量x,随机误差的方差相同。(3)独立性。各项随机误差之间,以及各项随机误差与对应的自变量之间均不相关,即有0jiEnji,2,1,ji 0iixE2023年11月16日/上午10时21分统计学教程第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 2回归方程 根据回归理论模型中对随机误差的三项假定,有 因此有变量的数学期望
16、为自变量的线性函数。回归方程(Regression Equation)是指因变量y的数学期望依赖自变量x取值的方程。有一元线性回归方程为 (9.9)一元线性回归方程在直角坐标系中为一条直线,所以也称为直线回归方程。20,N xyE102023年11月16日/上午10时21分统计学教程第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 3估计的回归方程 由回归方程中可知,当回归系数确定之后,可以利用式(9.9)计算出因变量在给定自变量数值时的数学期望。在回归方程中的回归系数和随机误差的方差均为未知,需要利用样本数据进行统计估计。当根据样本推断出回归方程中的回归系数的估计量时,就得到了由样本推断出来的估计的回归方程。估计的回归方程(Estimated Regression Equation)是指根据样本数据的估计量构成的回归方程。估计的一元线性回归方程为 (9.10)当估计的一元线性回归方程式(9.10)中的自变量给定某一具体数值时,因变量的对应的取值,也就随之确定下来了。xy102023年11月16日/上午10时21分统计学教程第9章 相关与回归分析 9.2 9.2 一元线