《第4参数估计和假设检验名师编辑PPT课件.ppt》由会员分享,可在线阅读,更多相关《第4参数估计和假设检验名师编辑PPT课件.ppt(93页珍藏版)》请在优知文库上搜索。
1、中央财经大学统计学院参数估计与假设检验参数估计与假设检验4.1参数估计4.2假设检验中央财经大学统计学院 24.1 参数估计参数估计l4.1.1参数估计的基本概念l4.1.2总体均值和比例的区间估计l4.1.3必要样本容量的确定中央财经大学统计学院 34.1.1 参数估计的基本概念参数估计的基本概念总体算术平均数算术平均数x统计量统计量用来推断总体参数的统计量称为用来推断总体参数的统计量称为估计量估计量(estimator),其取值称其取值称为为估计值估计值(estimate)。同一个参数可以有多个不同的估计量。同一个参数可以有多个不同的估计量。参数是唯一的,但参数是唯一的,但估计量(统计量)
2、是随机变量估计量(统计量)是随机变量,取值是不确,取值是不确定的。定的。?参数参数中央财经大学统计学院 4点估计l点估计:用估计量的数值作为总体参数的估计值。l一个总体参数的估计量可以有多个。例如,在估计总体方差时,和 都可以作为估计量。nxxnii12)(1)(12nxxnii中央财经大学统计学院 5点估计量的常用评价准则:无偏性无偏性l无偏性:估计量的数学期望与总体待估参数的真值相等:()E有偏有偏中央财经大学统计学院 6点估计量的常用评价准则:有效性l 在两个无偏估计量中方差较小的估计量较为有效。的抽样分布的抽样分布 的抽样分布的抽样分布中央财经大学统计学院 7估计量的常用评价准则:一致
3、性l指随着样本容量的增大,估计量越来越接近被估计的总体参数。较小的样本容量较小的样本容量较大的样本容量较大的样本容量P(X)中央财经大学统计学院 8区间估计l根据事先确定的置信度1-给出总体参数的一个估计范围。l置信度1-的含义是:在同样的方法得到的所有置信区间中,有100(1-)%的区间包含总体参数。l抽样分布是区间估计的理论基础。估计值估计值(点估计点估计)置信下限置信下限置信上限置信上限置信区间置信区间抽样分布 Sampling Distributionl从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。l如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。
4、l统计量的抽样分布就是这一统计量所有可能值的概率分布。中央财经大学统计学院 10抽样分布:几个要点l抽样分布是统计量的分布而不是总体或样本的分布。l在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。l样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。l抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。中央财经大学统计学院 11抽样分布的一个演示:重复抽样抽样分布的一个演示:重复抽样时样本均值的抽样分布(时样本均值的抽样分布(1)设一个总体含有设一个总体含有4 个个体,分别
5、为个个体,分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下。总体的均值、方差及分布如下。均值和方差均值和方差5.21NXNii25.1)(122NXNii总体的频数分布总体的频数分布中央财经大学统计学院 12抽样分布的一个演示:重复抽样抽样分布的一个演示:重复抽样时样本均值的抽样分布(时样本均值的抽样分布(2)现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表.3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2 的样本(共16
6、个)中央财经大学统计学院 13抽样分布的一个演示:重复抽抽样分布的一个演示:重复抽样时样本均值的抽样分布(样时样本均值的抽样分布(3)各样本的均值如下表,并给出样本均值的抽样分布各样本的均值如下表,并给出样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布P(x)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)中央财经大学统计学院 14所有样本均值的均值和方差所有样本均值的均值和方差1.样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于
7、总体方差的样本均值的方差等于总体方差的1/nnMxnixix222122625.016)5.20.4()5.20.1()(5.2160.45.10.11MxniixM为样本数目为样本数目中央财经大学统计学院 15样本均值的抽样分布与总体分布的比较 =2.5 2=1.25总体分布总体分布抽样分布抽样分布5.2x625.02x样本均值的抽样分布样本均值的抽样分布中央财经大学统计学院 16样本均值的抽样分布样本均值的抽样分布总体分布总体分布n=4抽样分布抽样分布X5x50 xn=165.2x 一般的,当总体服从一般的,当总体服从 N N(,2 2)时,来自该总体时,来自该总体的容量为的容量为n n的
8、样本的均值的样本的均值 X X也服从正态分布,也服从正态分布,X X 的的期望为期望为,方差为,方差为2 2/n n。即。即 X XN N(,2 2/n n)。小样本小样本中心极限定理中心极限定理从均值为从均值为,方差为,方差为 2 2的一个任意总体中抽取容量的一个任意总体中抽取容量为为n n的样本,当的样本,当n n充分大时,样本均值的抽样分布近充分大时,样本均值的抽样分布近似服从均值为似服从均值为、方差为、方差为2 2/n n的正态分布。的正态分布。xn x 中央财经大学统计学院 18标准误(标准误(Standard Error)l简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于 ,
9、这个指标在统计上称为标准误。l统计软件在对变量进行描述统计时一般会输出这一结果。n中央财经大学统计学院 19有限总体校正系数Finite Population Correction Factorl简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于l 这一系数称为有限总体校正系数。l当抽样比(n/N)描述统计描述统计-探索探索均值均值的 95%置信区间5%修整均值中值方差标准差极小值极大值下限上限统计量27.19125.53028.85226.97726.50070.1048.37289.550.3标准误.8373中央财经大学统计学院 27总体比例的置信区间:例子总体比
10、例的置信区间:例子解:显然有解:显然有因此可以用正态分布进行估计。因此可以用正态分布进行估计。/2=1.6450215.0217.0995)217.01(217.0645.1217.0)1(2 nppZp 结论:我们有90的把握认为悉尼青少年中每天都抽烟的青少年比例在19.55%23.85%之间。19861986年对悉尼年对悉尼995995名青少年的名青少年的随机调查发现随机调查发现,有,有216216人每天人每天都抽烟。试估都抽烟。试估计悉尼青少年计悉尼青少年中每天都抽烟中每天都抽烟的青少年比例的青少年比例的的90%90%的置信区的置信区间。间。5)1(,5 pnpnSPSS的计算结果的计算
11、结果l在SPSS中将“是否吸烟”输入为取值为1和0的属性变量,权数分别为216和779。计算这一变量均值的置信区间即为比例的置信区间。均值均值的 90%置信区间5%修整均值中值方差标准差极小值极大值范围四分位距下限上限统计量.2171.1956.2386.1857.0000.170.41247.001.001.00.00标准误.01308中央财经大学统计学院 294.3 必要样本量的计算 样本量越大抽样误差越小。由于调查成本方面的原因,在调查中我们总是希望抽取满足误差要求的最小的样本量。中央财经大学统计学院 30关于抽样误差的几个概念l实际抽样误差l抽样平均误差l最大允许误差中央财经大学统计学
12、院 31实际抽样误差l样本估计值与总体真实值之间的绝对离差称为实际抽样误差。l由于在实践中总体参数的真实值是未知的,因此实际抽样误差是不可知的;l由于样本估计值随样本而变化,因此实际抽样误差是一个随机变量。|抽样平均误差抽样平均误差l抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值(或比例)与总体均值(比例)的平均差异程度。l例如对简单随机抽样中的样本均值有:或 (不重复抽样)l我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。由上面的公式可知影响抽样误差的因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法。中央财经大学统计学院 33最大允许误
13、差l最大允许误差(allowable error):在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半。在英文文献中也称为margin of error。l置信区间=l最大允许误差是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。中央财经大学统计学院 34如何确定必要样本量?l必要样本量受以下几个因素的影响:l1、总体标准差。总体的变异程度越大,必要样本量也就越大。l2、最大允许误差。最大允许误差越大,需要的样本量越小。l3、置信度1-。要求的置信度越高,需要的样本量越大。l4、抽样方式。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等
14、不同抽样方式下要求的必要样本容量也不同。中央财经大学统计学院 35简单随机抽样下估计总体均值时样本容量的确定2222/2/,EZnnZEl式中的总体方差可以通过以下方式估计:l根据历史资料确定l通过试验性调查估计中央财经大学统计学院 36简单随机抽样下估计总体比例时样本容量的确定222/)1(,)1(2/EZnnZEl式中的总体比例可以通过以下方式估计:l根据历史资料确定l通过试验性调查估计l取为0.5。中央财经大学统计学院 37不重复抽样时的必要样本量l比重复抽样时的必要样本量要小。l 式中n0是重复抽样时的必要样本容量。Nnnn001中央财经大学统计学院 38样本量的确定(实例1)需要多大
15、规模的样本才能在需要多大规模的样本才能在 90%的置信的置信水平上保证均值的误差在水平上保证均值的误差在 5 之内之内?前前期研究表明总体标准差为期研究表明总体标准差为 45.nZE=222222(1645)(45)(5)219.2 220.向上取整中央财经大学统计学院 39样本量的确定(实例2)一家市场调研公司一家市场调研公司想估计某地区有电想估计某地区有电脑的家庭所占的比脑的家庭所占的比例。该公司希望对例。该公司希望对比例比例p的估计误差的估计误差不超过不超过0.05,要求,要求的可靠程度为的可靠程度为95%,应抽多大容量的样应抽多大容量的样本(没有可利用的本(没有可利用的p估计值)?估计
16、值)?解:已知E=0.05,=0.05,Z/2=1.96,当未知时取为0.5。385)05.0()5.01)(5.0()96.1()1(22222EZn中央财经大学统计学院 40实例3你在美林证券公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。你希望有 95%置信度使得样本均值的误差在$50 以内。过去的研究表明 约为$400。需要多大的样本容量?nZE=222222(196)(400)(50)24586246.中央财经大学统计学院4.2 假设检验假设检验4.2.1 假设检验的基本问题4.2.2 单个总体参数的检验4.2.3 两个总体参数的检验中央财经大学统计学院 424.2.1 假设检验的基本问题假设检验的基本问题l基本原理l零假设和备择假设l检验统计量和拒绝域l两类错误与显著性水平中央财经大学统计学院 43实际中的假设检验问题实际中的假设检验问题l假设检验:事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)。l产品自动生产线工作是否正常?l某种新生产方法是否会降低产品成本?l治疗某疾病的新药是否比旧药疗效更高