《第七章 方差分析基础.ppt》由会员分享,可在线阅读,更多相关《第七章 方差分析基础.ppt(70页珍藏版)》请在优知文库上搜索。
1、第七章第七章 方差分析基础方差分析基础7.1方差分析的方差分析的必要性与作用必要性与作用7.2方差分析及方差分析及基本原理基本原理7.3多重比较多重比较7.4方差分析的方差分析的数学模型数学模型7.5方差分析的方差分析的基本假定与数据转换基本假定与数据转换7.6方差分析的方差分析的类型与分析步骤类型与分析步骤7.1方差分析的必要性与作用方差分析的必要性与作用一、方差分析的必要性一、方差分析的必要性前面学习了两个样本平均数的假设测验,前面学习了两个样本平均数的假设测验,该法只适用于比较两个试验处理的优劣。该法只适用于比较两个试验处理的优劣。用于多个平均数间差异显著性测验,就用于多个平均数间差异显
2、著性测验,就会表现出如下一些问题:会表现出如下一些问题:若进行若进行5个样本平均数的差异显著性比较,则需进个样本平均数的差异显著性比较,则需进行行10次两两均数差异显著性测验次两两均数差异显著性测验:H0:1=2,1=3,1=4,1=5;2=3,2=4,2=5;3=4,3=5;4=5.1多个处理用多个处理用t测验计算麻烦测验计算麻烦因此因此,当样本平均数的个数当样本平均数的个数k3时,采用上章学习时,采用上章学习的方法进行差异显著性测验,工作量是相当大的。的方法进行差异显著性测验,工作量是相当大的。两个样本平均数比较采用两个样本平均数比较采用t测验,测验,=0.05时犯第一时犯第一类错误的概率
3、为类错误的概率为0.05,推断的可靠性为推断的可靠性为1-=0.95。若对若对5个处理采用个处理采用t测验进行比较,测验进行比较,=0.05,需进行需进行10次两两比较,每次比较的可靠性为次两两比较,每次比较的可靠性为1-=0.95,10次推断的可靠性由次推断的可靠性由0.95降到降到0.5987,犯第一类错误的犯第一类错误的概率则由概率则由0.05上升上升0.4013.2.推断的可靠性降低推断的可靠性降低,犯犯 错误的概率增大错误的概率增大 采用采用t测验法,每次只能利用两组观察值估计试验误测验法,每次只能利用两组观察值估计试验误差,与利用全部观察值估计的试验误差相比,精确性低,差,与利用全
4、部观察值估计的试验误差相比,精确性低,误差的自由度也低,从而使检验的灵敏度也降低,容易误差的自由度也低,从而使检验的灵敏度也降低,容易掩盖差异的显著性,增大犯第二类错误的可能。掩盖差异的显著性,增大犯第二类错误的可能。3.误差估计的精确性和检验的灵敏性降低误差估计的精确性和检验的灵敏性降低 因此对多个处理平均数进行差异显著性测验,因此对多个处理平均数进行差异显著性测验,不宜采用不宜采用t测验,而需采用测验,而需采用方差分析法。方差分析法。1、在单因素试验中,可以分辨出最优的水平。、在单因素试验中,可以分辨出最优的水平。2、在多因素试验中,可以分辨出最、在多因素试验中,可以分辨出最 优的水平组合
5、。优的水平组合。二、方差分析的作用二、方差分析的作用解决多个处理的比较问题,充分利用资解决多个处理的比较问题,充分利用资料的全部信息,提高分析的精确度。料的全部信息,提高分析的精确度。方差分析的概念:方差分析的概念:变异原因的数量分析变异原因的数量分析 将试验数据的总变异分解为不同来源将试验数据的总变异分解为不同来源的变异,从而评定不同变异来源的相对重要的变异,从而评定不同变异来源的相对重要性的一种统计方法。性的一种统计方法。7.2方差分析及基本原理方差分析及基本原理 设有设有k个处理,每个处理有个处理,每个处理有n个个观察值,则共有观察值,则共有nk个观察值,其数个观察值,其数据结构和符号如
6、表据结构和符号如表7.1。一、数据结构与变异来源的分解一、数据结构与变异来源的分解表表7.1 K个处理个处理n个观察值的符号表个观察值的符号表处理处理 1 2 i k 1 x11 x21 xi1 xk1 2 x12 x22 xi2 xk2 :j x1j x2j xij xkj :n x1n x2n xin xkn总和总和 T1 T2 Ti Tk平均平均 均方均方 1x2xixkx21s22s2is2ksknxxTxTijiij每一个观察值的线性模型为:每一个观察值的线性模型为:处理间变异处理间变异i=(i-)处理内变异处理内变异ij=(xij-i)由此可推知由此可推知:nk个观察值的总变异可分
7、解个观察值的总变异可分解为处理间的变异和处理内的变异两部分。为处理间的变异和处理内的变异两部分。ijiijx总体符号总体符号ijiijetxx样本符号样本符号二、自由度与平方和的分解二、自由度与平方和的分解 1、总平方和分解 由表由表7.1可以看出,可以看出,nk个观察值的变异构成了个观察值的变异构成了整个资料的总变异,整个资料的总变异,总变异的平方和即:总变异的平方和即:nkTxxxssijijT222)(7.1)记记 为为C(矫正数矫正数)nkT2CxssijT2则kinjiijnjiijkikiiikinjiijiijiikinjkinjiijiijxxxxxxxxnxxxxxxxxxx
8、xxxx11211121122111122.)(.)(.).(2.).(.)(.).)(.(2.).(.)(.).(.)(njiijxx1.0)(其中kinjkikinjiijiijxxxxnxx111112.2.2.)()()(所以记为:记为:SSSST T=SS=SSt t+SS+SSe e总平方和总平方和=处理间平方和处理间平方和+处理内平方和处理内平方和处理间平方和处理间平方和乃各处理的平均数的变异,即乃各处理的平均数的变异,即CTnxxnssiit)(1)(22处理内(误差)平方和处理内(误差)平方和乃各组的乃各组的n n个观察值与个观察值与其相应平均数的离差平方和,即其相应平均数的
9、离差平方和,即tTinkijkniijessssnTxxxss212211)(2.自由度的分解自由度的分解1 1、总变异的自由度:、总变异的自由度:dfdfT T=nk-1=nk-12 2、处理间的自由度:、处理间的自由度:dfdft t=k-1=k-13 3、整个资料处理内(即误差项)自由度为:、整个资料处理内(即误差项)自由度为:dfe=dfdfe=df1 1+df+df2 2+df+dfk k=k(n-1)=k(n-1)由上述分析可知,整个资料的变异来源可由上述分析可知,整个资料的变异来源可分为:分为:处理间处理间和和处理内处理内两个部分。因此,两个部分。因此,总平方和总平方和=处理间平
10、方和处理间平方和+处理内平方和处理内平方和 SSSST T=SS=SSt t+SS+SSe e 总自由度总自由度=处理间自由度处理间自由度+处理内自由度处理内自由度 dfdfT T=df=dft t+df+dfe e于是,于是,处理间均方:处理间均方:处理内均方:处理内均方:总变异均方:总变异均方:TTTTeeeettttdfSSSMSdfSSSMSdfSSSMS222注意eTMSMSMSt222212kessss)(1222212kesssks 表表6.2 表表6.1资料的方差分析资料的方差分析变异来源变异来源 DF SS MS F 处理间处理间 k-1 SSt MSt MSt/MSe 处理
11、内处理内 k(n-1)SSe MSe 总变异总变异 kn-1 SST例例6.16.1以以A A,B B,C C,D4D4种药剂处理水稻种子其中种药剂处理水稻种子其中A A为对照,处理各得为对照,处理各得4 4个苗高观察值(个苗高观察值(cmcm)其结果如)其结果如表表6.26.2,试进行方差分析。,试进行方差分析。表表6.2 6.2 水稻不同处理苗高(水稻不同处理苗高(cmcm)336T21yiT总和总和iy平均平均药剂药剂苗高观察苗高观察A A18 21 20 1318 21 20 13B B20 24 26 2220 24 26 22C C10 15 17 1410 15 17 14D D
12、28 27 29 3228 27 29 327272181892922323565614141161162929k.2170564433622knTC观察值个数总和平方985046025044116.927260232.21182222.2222tTeitTssssssssccnTssssccxssss机误处理总第一步:统计假设第一步:统计假设H0H0:第二步:整理资料,计算矫正数及各种平方和第二步:整理资料,计算矫正数及各种平方和第三步:列方差分析表并进行第三步:列方差分析表并进行F F测验测验变异来源变异来源DfDfSSSSMSMSF FF F0.050.05F F0.010.01药剂药剂
13、误差误差总变异总变异3 31212151550450498986046041681688.178.1740.1340.1320.5620.56三、三、F F分布与分布与F F测验测验 由前面的分析可知,表由前面的分析可知,表6.1中中nk个观察值个观察值的大小不尽相同,它们之间的变异构成了整的大小不尽相同,它们之间的变异构成了整个数据的总变异,其总变异又可分为个数据的总变异,其总变异又可分为处理间处理间变异变异和和处理内变异处理内变异。1 1、F F测验的基本原理测验的基本原理同一处理内的各个观察值不完全相同,同一处理内的各个观察值不完全相同,各各个处理内的随机变异之和就构成了整个资料的个处理
14、内的随机变异之和就构成了整个资料的误差项变异。误差项变异。处理内变异处理内变异各处理平均数之间有不同程度的差异,各处理平均数之间有不同程度的差异,引起差异的原因有二:其一是引起差异的原因有二:其一是处理的不同处理的不同;其二是其二是不同处理受偶然因素影响的程度不同不同处理受偶然因素影响的程度不同(即误差变异)。(即误差变异)。处理间变异处理间变异当处理间真实差异当处理间真实差异=0时,时,处理间变异处理间变异=处理内变异处理内变异当处理间真实差异当处理间真实差异0时,时,处理间变异处理内变异处理间变异处理内变异因此因此:处理间变异处理间变异=处理间真实差异处理间真实差异+处理内变异处理内变异
15、利用这种关系,将处理间变异与处理内变异的利用这种关系,将处理间变异与处理内变异的比值定义为比值定义为F值,值,如果如果F与与“1”相差不多,表明各处理效应在本相差不多,表明各处理效应在本质上相同,即处理间差异不显著。质上相同,即处理间差异不显著。如果如果F比比“1”大得多,超出了通常偶然因素所大得多,超出了通常偶然因素所能解释的范围,那就说明各处理效应有本质差异。能解释的范围,那就说明各处理效应有本质差异。22etssF处理内方差处理间方差 关于关于F值的大小,如何判断是否超过了用误差解值的大小,如何判断是否超过了用误差解释的范围?必须借助释的范围?必须借助F测验。测验。F分布 有一个平均数为
16、有一个平均数为 ,方差为,方差为 的正态总体,的正态总体,从中随机抽取两个样本,其容量分别为从中随机抽取两个样本,其容量分别为n1 和和n2,则其自由度分别为则其自由度分别为df1=n1-1和和df2=n2-1,方差,方差为为 ,令两个方差之比为,令两个方差之比为F,即,即 22221ss 和2221ssF 2、F分布与分布与F测验测验Ff(F)df1=2 df2=5df1=5 df2=4df1=1 df2=5图6.1 几种自由度下的F分布 在给定的在给定的 样本容量样本容量n1 和和n2下,从该总体进行一系列下,从该总体进行一系列的抽样,则可获得一系列的抽样,则可获得一系列F值,各个值,各个F值所具有的概率构值所具有的概率构成一种分布,这一分布称为成一种分布,这一分布称为F分布分布。F分布的平均数分布的平均数 F分布的取值范围为分布的取值范围为0,故故F分布只有一尾概率(即右尾概率),进行的分布只有一尾概率(即右尾概率),进行的F测验仅为一尾测验。测验仅为一尾测验。1F F分布是随自由度分布是随自由度df1 和和df2的改变而改变的一组的改变而改变的一组偏态曲线,只有当偏态曲线,只有