《商务统计学Ch07.ppt》由会员分享,可在线阅读,更多相关《商务统计学Ch07.ppt(45页珍藏版)》请在优知文库上搜索。
1、Chap 7-1第7章抽样和抽样分布商务统计学(第5版).Chap 7-2学习目标在本章中你将学到:在本章中你将学到:n区分不同的抽样方法n抽样分布的概念n 计算样本平均数和样本比例相关的概率n中心极限定理的重要性.Chap 7-3为什么需要样本?n选择样本比总体(人口普查)中的每一项要节省时间。n选择样本比总体中的每一项要节省费用。n分析样本要比分析整个总体容易且更加实际。.Chap 7-4抽样过程从抽样架构开始n架构是对组成总体的一系列条目的列举。n架构是类似总体清单,目录或者地图的数据源。n如果架构里没有包括总体的某些部分,不准确或者有偏的结果可能产生。 n使用不同的架构得到数据会得出不
2、同的结论。.Chap 7-5样本类型样本样本非概率样本非概率样本判断样本判断样本概率样本概率样本简单简单随机样本随机样本系统样本系统样本分层样本分层样本群样本群样本便利样本便利样本.Chap 7-6样本类型:非概率样本n在非概率样本中,选中的条目不根据他们发生的概率。n在便利抽样中,条目的选择简单,便宜,且方便抽样。n在判断样本中,我们得到预先选好的专家就主题发表的意见。.Chap 7-7样本类型:概率样本n在概率样本中在概率样本中, 样本中条目的选择基于已知的概率。概率样本概率样本简单简单随机样本随机样本系统样本系统样本分层样本分层样本群样本群样本.Chap 7-8概率样本:简单随机样本n架
3、构里的每一个条目都有同等的机会被选中n 抽样可以放回(选择了某一个条目之后再把它放回架构里,它再次被选中的概率仍然相同)或者不放回 (选择的某一个条目,不能放回架构中)。n样本通过随机数表或随机数产生器取得.Chap 7-9使用随机数表选择简单随机样本有850条目的总体抽样架构条目名 条目号Bev R. 001Ulan X. 002. . . . .Joann P. 849Paul F. 850随机数表随机数表(部分部分)49280 88924 35779 00283 81163 0727511100 02340 12860 74697 96644 8943909893 23997 20048
4、 49420 88872 08401简单随机样本前简单随机样本前5个条目个条目Item # 492Item # 808Item # 892 - 不存在所以忽略Item # 435Item # 779Item # 002.Chap 7-10n取决于样本容量: nn架构中N个体分成含k个体的组: k=N/nn从第一组随机选择一个个体n接下来,每数到第k个数都依次选取概率样本:系统样本N = 40n = 4k = 10第一组.Chap 7-11.Chap 7-12概率样本:分层样本n根据一些常见的特征,把总体分成两个或两个以上的亚群体,即层层(strata)。n在每个层中根据层容量相应选择简单随机样
5、本。n分层选择的样本然后加以合并。n当抽样总体是选民时,根据种族或社会经济层次分层是常用的技术。总体分成总体分成4个层个层.Chap 7-13概率样本: 群样本n总体分为若干个 “群样本,”每个群代表整个总体。n随机选择群样本n使用选中的群里的所有项目或者从群里面选取基于概率的样本。n群样本的通常应用是选举,其中选择特定选区并抽样。总体分成总体分成16个群样本。个群样本。随机选择群样本抽样随机选择群样本抽样.Chap 7-14概率样本:比较抽样方法n简单随机样本和系统样本n使用简单n可能不能很好的代表总体的潜在特性n分层样本n确保代表的个体覆盖整个总体n群样本n成本效率更高n有效性较低(需要更
6、大的样本以取得同等程度的精确性).Chap 7-15估计调查价值n调查的目的是什么?n调查是否基于概率样本?n覆盖误差 合适的架构?n无回复误差 跟随n测量误差 好的问题引出好的回复n抽样误差 一直存在.Chap 7-16调查误差类型n覆盖误差或选择偏误n如果有些条目组没有被包括在架构里,没有机会被选到,就会产生。n无回复误差或偏误n不回复的人于回复的人可能是不同的。n抽样误差n随着样本的不同而不同,且是一直存在的。n测量误差n由于问题设计的缺陷,,回答的误差和受访者回复的努力 (“霍索恩效应”).Chap 7-17调查误差类型n覆盖误差n无回复误差n抽样误差n测量误差从架构中排出从架构中排出
7、跟踪无回复跟踪无回复随机样本,随机样本,随着样本的不同而不同不好的或者主要的不好的或者主要的问题问题(续).Chap 7-18抽样分布n抽样分布就是选出所有可能的样本情况下结果的分布n例如, 假设根据那么学院学生的平均成绩选择50个学生。 如果得到很多不同的50个学生的样本,将计算每个样本不同平均数。我们可以计算对于任意给定的50个学生的样本,我们对所有潜在的平均成绩感兴趣。.Chap 7-19建立抽样分布n假设总体假设总体n总体容量N=4n随机样本变量, X, 是个体的年龄nX的观测值: 18, 20,22, 24 (岁)ABCD.Chap 7-20.3.2.1 0 18 20 22 24
8、A B C D均匀分布P(x)x(续)总体分布的概括度量:建立抽样分布21424222018NXi2.236N)(X2i.Chap 7-2116 个可能的样本 (有放回的抽样)现在考虑容量n=2的所有可能的样本(续)建立抽样分布16个样本平均数第一个第一个观测值观测值第二个第二个 观测值观测值182022241818,1818,2018,2218,242020,1820,2020,2220,242222,1822,2022,2222,242424,1824,2024,2224,24.Chap 7-22所有样本平均数的抽样分布18 19 20 21 22 23 240 .1 .2 .3 P(X)
9、 X样本平均数的分布16个样本平均数_建立抽样分布(续)(不再是均匀分布)_.Chap 7-23该抽样分布的概括度量:建立抽样分布(续)211624191918NXiX1.581621)-(2421)-(1921)-(18N)X(2222XiX.Chap 7-24比较总体分布与样本平均数的分布18 19 20 21 22 23 240 .1 .2 .3 P(X) X 18 20 22 24 A B C D0 .1 .2 .3 总体N = 4P(X) X_1.58 21XX2.236 21样本平均数分布n = 2_.Chap 7-25样本平均数抽样分布:平均数的标准差n同样总体相同容量的不同的
10、样本导致不同的 样本平均数n样本与 样本之间平均数的变动用平均数的标准差来度量:(这假设是有放回的抽样或者无限总体无放回的抽样)n注意平均数的标准差随着样本容量 增加而减少nX.Chap 7-26样本平均数抽样分布:总体服从正态分布n总体服从正态分布,平均数 且标准差, 抽样分布 也服从正态分布 且XXnX.Chap 7-27平均数抽样分布的Z值n 抽样分布的Z值:其中:= 样本平均数= 总体平均数= 总体标准差 n = 样本容量Xn)X()X(ZXXX.Chap 7-28总体正态分布抽样分布也正态分布(有同样的平均数)抽样分布特征n (也就是说 是无偏的 )xxxxx.Chap 7-29抽样
11、分布特征 随着n增加, 减小较大的样本容较大的样本容量量较小的较小的 样本容样本容量量x(续)x.Chap 7-30确定包括固定比例的样本平均数的区间对于附近对称分布的包含95%的样本平均数区间当 = 368, = 15且n = 25.n因为区间包含95% 的样本平均数 ,5% 的样本平均数 将在区间之外n因为区间是对称的,2.5%将大于上边界且2.5%将小于上边界。n从 标准正态分布表, 2.5% (0.0250) 低于其的Z值是 -1.96 且2.5% (0.0250) 高于其的Z值是 1.96 。.Chap 7-31确定包括固定比例的样本平均数的区间n计算区间的下边界n计算区间的上边界n
12、样本容量为25的所有样本平均数中的95%位于 362.12和373.88之间12.3622515)96. 1(368nZXL(续)88.3732515)96. 1 (368nZXU.Chap 7-32样本平均数抽样分布:总体非正态分布n我们可以使用中心极限定理:n即使总体非正态分布,n总体的样本平均数 将近似正态分布只要样本容量足够的大.抽样分布的特征 : 且xnx.Chap 7-33n中心极限定理随着样本容量变得足够的大 不管总体的分布如何,抽样分布趋近于正态分布x.Chap 7-34总体分布抽样分布(随着n的增加服从正态分布)集中趋势变异程度xx较大的较大的样本容样本容量量较小的较小的 样
13、本容样本容量量样本平均数抽样分布:总体非正态分布(续)抽样分布特征:xnxx.Chap 7-35多大是足够的大?n对于大多数分布, n 30 将导致抽样分布近乎正态分布n对于完全对称分布, n 15 一般足够导致抽样分布近乎正态分布n对正态分布的总体,平均数的抽样分布总是服从正态分布.Chap 7-36例子n假设总体的平均数 = 8 且标准差 = 3. 假设选中容量n = 36随机样本。n样本平均数介于7.8和8.2之间的概率是多少?.Chap 7-37例子结论:n即使总体非正态分布, 中心极限定理可以应用 (n 30)n 因此抽样分布近乎正态分布n 且平均数 = 8 n且标准差(续)xx0.
14、5363nx.Chap 7-38例子 结论(续):(续)0.31080.4)ZP(-0.43638-8.2n- X3638-7.8P 8.2) X P(7.8Z7.8 8.2-0.4 0.4抽样分布标准正态分布分布.1554 +.1554总体 分布?样本标准化8 8X0zxX.Chap 7-39总体比例 = 有着某种特性的总体的比例 n样本比例 ( p ) 提供的估计:n0 p 1n当n比较大时,p 近乎正态分布(假设是有放回的抽样或者无限总体无放回的抽样)样本容量条目数量样本中有着感兴趣特性 nXp.Chap 7-40p的抽样分布n近乎正态分布分布,如果:n 其中 且(其中 = 总体比例)抽
15、样分布P( ps).3.2.1 0 0 . 2 .4 .6 8 1ppn)(1p5)n(15n且.Chap 7-41比例的Z值n)(1ppZp使用公式将p标准化为Z值:.Chap 7-42例子n如果支持A主张的投票者的真正比例是 = 0.4,容量200 的样本导致样本比例介于0.40与0.45之间的概率是多少?n也就是说: if = 0.4且且n = 200, P(0.40 p 0.45)是多少是多少 ?.Chap 7-43例子n if = 0.4且且n = 200, P(0.40 p 0.45)是多少是多少 ?(续)0.034642000.4)0.4(1n)(1p1.44)ZP(00.034640.400.45Z0.034640.400.40P0.45)pP(0.40计算 : 转换成标准正态分布: p.Chap 7-44例子Z0.451.440.4251标准化抽样分布标准正态分布分布n if = 0.4且且n = 200, P(0.40 p 0.45)是多少是多少 ?(续)使用标准正态分布表: P(0 Z 1.44) = 0.42510.400p.Chap 7-45小结n讨论了概率与非概率样本n叙述了四种常见概率样本n讨论了调查价值 和调查误差的类型n介绍了抽样分布n叙述了平均数的抽样分布n对于正态分布总体n使用中心极限定理n叙述了比例的抽样分布n使用抽样分布计算概率