《概率论与数理统计柴中林第19讲.ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计柴中林第19讲.ppt(22页珍藏版)》请在优知文库上搜索。
1、 概率论与数理统计概率论与数理统计第十九讲第十九讲7.5 正态总体的区间估计正态总体的区间估计(二二)在实际应用中,经常会遇到两个正态总在实际应用中,经常会遇到两个正态总体的区间估计问题。体的区间估计问题。于是,评价新技术的效果问题,就归结于是,评价新技术的效果问题,就归结为研究两个正态总体均值之差为研究两个正态总体均值之差 1-2 的问题。的问题。例如:考察一项新技术例如:考察一项新技术对提高产品的某项质量指标的作用对提高产品的某项质量指标的作用,将实施,将实施新技术前的产品质量指标看成正态总体新技术前的产品质量指标看成正态总体 N(1,12),实施新技术后产品质量指标看成正态,实施新技术后
2、产品质量指标看成正态总体总体 N(2,22)。定理定理1:设设 X1,X2,Xm是抽自正态总体是抽自正态总体X 的简单样本,的简单样本,XN(1,12),样本均值与样,样本均值与样本方差为本方差为Y1,Y2,Yn 是抽自正态总体是抽自正态总体 Y 的简单样本,的简单样本,Y N(2,22),样本均值与样本方差为,样本均值与样本方差为;,21211)(11 1XXmSXmXmiimii.)(11 ,121221YYnSYnYmiinii)1(,.I222121;nmNYX)2(.)()(.II21121222221nmtnmSYX未知时,未知时,当当.2)1()1(22212nmSnSmS其中其
3、中当两样本相互独立时,有当两样本相互独立时,有得得的估计,由基本定理,的估计,由基本定理,都是都是与与时,时,当当2222122221 .II SS证明证明:.)/,()/,(222211nNYmNX,也也相相互互独独立立。与与由由两两样样本本相相互互独独立立,YXI.I.由基本定理由基本定理(见定理见定理6.4.1),知,知 故,故,(1)式成立;式成立;且二者相互独立。且二者相互独立。)1()1(2122221221,nmSnSm式,得式,得由由时,时,另一方面,当另一方面,当)1(22221分分布布的的可可加加性性,有有根根据据2 且且(3)式与式与(4)式中的随机变量相互独立。由式中的
4、随机变量相互独立。由 t 分布的定义,得分布的定义,得 )3()1()1(2222221;nmSnSm)4(1 ,0 )(1121,NnmYX1121)()(nmSYX22221112112)1()1()()(nmSnSmnmYX)2()1()1()()(222211121nmSnSmnmYXN(0,1)2m+n-2221121)()(SnmYX换形式换形式 t m+n-2-2 .分母互换分母互换 利用该定理,我们可以得到利用该定理,我们可以得到 1 1-2 的的置信置信系数为系数为 1-1-的置信区间。的置信区间。的置信区间为:的置信区间为:,得,得式式由由时,时,均已知均已知和和当当 )1
5、(.I 212221(5)/()/(22212/;nmzYX的置信区间为:的置信区间为:,得,得式式由由时,时,但未知但未知当当 )2(.II212221(6)2/(112,nmStYXnm (7).2)1()1(2221nmSnSmS例例1(比较棉花品种的优劣比较棉花品种的优劣):假设用甲、乙两:假设用甲、乙两种棉花纺出的棉纱强度分别为种棉花纺出的棉纱强度分别为 XN(1,2.182)和和Y N(2,1.762)。试验者从这两种棉纱中分。试验者从这两种棉纱中分别抽取样本别抽取样本 X1,X2,X200 和和 Y1,Y2,Y100,样本均值分别为样本均值分别为:求求 1 1-2 2 的置信系数
6、为的置信系数为 0.95 的区间估计。的区间估计。,76.5 32.5YX解解:1=2.18,2=1.76,m=200,n=100,=0.05,由由(5)式,得式,得 1-2 的置信系数为的置信系数为 1-的置信的置信区间为区间为.0.019 899.0)/()/(22212/,nmzYX例例2:某公司利用两条自动化流水线灌装矿泉某公司利用两条自动化流水线灌装矿泉水。设这两条流水线所装矿泉水的体积水。设这两条流水线所装矿泉水的体积(单位单位:毫升毫升)XN(1,2)和和 YN(2,2)。现从生产。现从生产线上分别抽取线上分别抽取 X1,X2,X12 和和 Y1,Y2,Y17,样本均值与样本方差
7、分别为样本均值与样本方差分别为:求求 1 1-2 2 的置信系数为的置信系数为0.95的区间估计。的区间估计。.7.4 7.499 4.2 ,1.5012221SYSX,;解:解:m=12,n=17,=0.05,再,再由其他已知条由其他已知条件及件及(7)式,可算出式,可算出.94.1 217127.4)117(4.2)112(S查查 t 分布表,得分布表,得 tm+n-2(/2)=t27(0.025)=2.05.再由再由(6)式,得式,得 1-2 的置信系数为的置信系数为 1-的置的置信区间信区间.2.901 0.101)2/(112,nmStYXnm 在这两个例子中,在这两个例子中,1-2
8、 的置信区间都的置信区间都包含了零,也就是说:包含了零,也就是说:1可能大于可能大于 2,也可也可能小于能小于 2。这时我们认为二者没有显著差异。这时我们认为二者没有显著差异。7.6 非正态总体的区间估计非正态总体的区间估计 前面两节讨论了正态总体分布参数的区间前面两节讨论了正态总体分布参数的区间估计。但是在实际应用中,我们有时不能判断估计。但是在实际应用中,我们有时不能判断手中的数据是否服从正态分布,或者有足够理手中的数据是否服从正态分布,或者有足够理由认为它们不服从正态分布。这时,只要样本由认为它们不服从正态分布。这时,只要样本大小大小 n 比较大,总体均值比较大,总体均值 的置信区间仍可
9、用的置信区间仍可用正态总体情形的公式正态总体情形的公式 或或,22znXznX,.,2/2/znSXznSX2已知时已知时2未知时未知时所不同的是:所不同的是:这时的置信区间是近似的。这时的置信区间是近似的。这是求一般总体均值的一种简单有效的这是求一般总体均值的一种简单有效的方法,其理论依据是中心极限定理,它要求方法,其理论依据是中心极限定理,它要求样本大小样本大小 n 比较大。因此,这个方法称为大比较大。因此,这个方法称为大样本方法。样本方法。设总体均值为设总体均值为,方差为方差为2,X1,X2,Xn 为来自总体的样本。因为这些样本独立同为来自总体的样本。因为这些样本独立同分布的,根据中心极
10、限定理,对充分大的分布的,根据中心极限定理,对充分大的 n,下式近似成立下式近似成立(1),)1 ,0(/1NnnXnXnii因而,因而,近似地近似地有有 于是,于是,的置信系数约为的置信系数约为1-的置信的置信区间为区间为.1/2/znXP.22znXznX,当2未知时,用未知时,用2的的某个估计,如某个估计,如 S2 来代替,来代替,得到得到(2).22znSXznSX,只要只要 n 很大,很大,(2)式所提供的置信区间在应用式所提供的置信区间在应用上是令人满意的。上是令人满意的。那么,那么,n 究竟多大才算很究竟多大才算很大呢?大呢?显然,对于相同的显然,对于相同的 n,(2)式所给出的
11、置式所给出的置信区间的近似程度随总体分布与正态分布的信区间的近似程度随总体分布与正态分布的接近程度而变化接近程度而变化,因此,理论上很难给出因此,理论上很难给出 n 很大的一个界限。很大的一个界限。但许多应用实践表明:当但许多应用实践表明:当 n30时,时,近近似程度似程度是是可以接受可以接受的;当的;当 n50时,时,近似程近似程度度是是很好很好的。的。例例1:某公司欲估计自己生产的电池寿命。现某公司欲估计自己生产的电池寿命。现从其产品中随机抽取从其产品中随机抽取 50 只电池做寿命试验。只电池做寿命试验。这些电池寿命的平均值为这些电池寿命的平均值为 2.266 (单位:单位:100小小时时
12、),标准差,标准差 S=1.935。求该公司生产的电池平。求该公司生产的电池平均寿命的置信系数为均寿命的置信系数为 95%的置信区间。的置信区间。解:解:查正态分布表,得查正态分布表,得 z/2=z0.025=1.96,由公,由公式式(2),得电池平均寿命的置信系数为,得电池平均寿命的置信系数为 95%的的置信区间为置信区间为2.802.1.730 96.150935.1261.2 96.150935.1261.2 ,设事件设事件 A 在一次试验中发生的概率为在一次试验中发生的概率为 p,现在做现在做 n 次试验,以次试验,以Yn记事件记事件 A 发生的次数发生的次数,则则 Yn B(n,p)
13、。依中心极限定理,对充分大。依中心极限定理,对充分大的的 n,近似地有,近似地有 7.6.1 二项分布二项分布 (3).1 ,0()1(/)1(NpnpnpYnpppXn(3)式是式是(1)式的特殊情形。式的特殊情形。式式变变为为对对现现在在的的情情形形,记记(2)/nYXpn(4).)/(1)/(122nppzpnppzp,(4)式就是二项分布参数式就是二项分布参数 p 的置信系数约的置信系数约为为1-的置信区间。的置信区间。例例2:商品检验部门随机抽查了某公司生产的商品检验部门随机抽查了某公司生产的产品产品100件,发现其中合格产品为件,发现其中合格产品为84件,试求件,试求该产品合格率的
14、置信系数为该产品合格率的置信系数为0.95的置信区间。的置信区间。解:解:n=100,Yn=84,=0.05,z/2=1.96,将这将这些结果代入到些结果代入到(4)式,得式,得 p 的置信系数为的置信系数为0.95的近似置信区间为的近似置信区间为 0.77,0.91。例例3:在环境保护问题中在环境保护问题中,饮水质量研究占有饮水质量研究占有重要地位,重要地位,其中一项工作是检查饮用水中是其中一项工作是检查饮用水中是否存在某种类型的微生物。假设在随机抽取否存在某种类型的微生物。假设在随机抽取的的100份一定容积的水样品中有份一定容积的水样品中有20份含有这种份含有这种类型的微生物。试求同样容积
15、的这种水含有类型的微生物。试求同样容积的这种水含有这种微生物的概率这种微生物的概率 p 的置信系数为的置信系数为0.90的置信的置信区间。区间。解:解:n=100,Yn=20,=0.10,z/2=1.645,将这将这些结果代入到些结果代入到(4)式,得式,得 p 的置信系数为的置信系数为0.90的近似置信区间为的近似置信区间为 0.134,0.226。7.6.2 泊松分布泊松分布 的置信区间的置信区间为为的置信系数约的置信系数约得到参数得到参数,估计估计 1 X 设设 X1,X2,Xn 为抽自具有泊松分布为抽自具有泊松分布P()的总体的样本,因为的总体的样本,因为 E(X)=Var(X)=,应
16、用应用(2)式,并用式,并用(5)./22nXzXnXzX,7.6.2 泊松分布泊松分布 例例4:公共汽车站在一单位时间内公共汽车站在一单位时间内(如半小时如半小时,或或1小时小时,或一天等或一天等)到达的乘客数服从泊松分到达的乘客数服从泊松分布布 P(),对不同的车站对不同的车站,所不同的仅仅是参数所不同的仅仅是参数 的取值不同。现对一城市某一公共汽车站进的取值不同。现对一城市某一公共汽车站进行了行了100个单位时间的调查。这里单位时间是个单位时间的调查。这里单位时间是20 分钟。计算得到每分钟。计算得到每 20 分钟内来到该车站的分钟内来到该车站的乘客数平均值为乘客数平均值为 15.2 人。试求参数人。试求参数 的置信系的置信系数为数为 95%的置信区间。的置信区间。解解:n=100,=0.05,z/2=1.96,将这将这些结果代入到些结果代入到(5)式式,得得 的置信系数为的置信系数为0.95的近似置信区间为的近似置信区间为 14.44,15.96。,2.15X小结小结 本讲首先介绍两正态总体均值差的置信本讲首先介绍两正态总体均值差的置信区间;然后介绍大样本情形下非正态总体均区间