《中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx》由会员分享,可在线阅读,更多相关《中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx(20页珍藏版)》请在优知文库上搜索。
1、第四章 数理统计的基本概念及抽样分布教学目的:1)使学生对什么叫数理统计及其发展史有一个初步的了解。2)使学生掌握数理统计的若干基本概念,如总体、样本、简单样本、统计模型等。3)使学生掌握统计量2、卜F、正态总体样本均值和样本方差的分布及其简单性质.?4.1引言什么叫数理统计学本课程的前四章介绍了概率论的基本内容,为数理统计学建立了重要的数学基础.从 本章起,我们转入本课程的第二部分一数理统计学.下面我们首先说明什么是数理统计 学.统计学的任务是研究怎样有效地收集、整理和分析带有随机性影响的数据,从而对 所考虑的问题作出一定结论的方法和理论.它是一门实用性很强的学科,在人类活动的 各个领域有着
2、广泛的应用.研究统计学方法的理论基础问题的那一部分构成数理统计 学”的内容.一般地可以认为数理统计是数学的一个分支,它是研究如何有效地收集和有效地使用带有随机性影 响的数据的一门学科.下面通过例子对此加以说明.1 .有效地收集数据收集数据的方法有:全面观察(或普查)、抽样调查和安排试验等方式.例4.1.1.人口普查和抽样调查.我国在2000年进行了第五次人口普查.如果普查的数 据是准确无误的,无随机性可言,不需用数理统计方法.由于人口普查,调查项目很多, 我国有13亿人口,普查工作量极大,而训练有素的工作人员缺乏.因此虽是全面调查,但 数据并不可靠,农村超计划生育瞒报、漏报人口的情况时有发生.
3、针对普查数据不可靠, 国家统计局在人口普查的同时还派出专业人员对全国人口进行抽样调查,根据抽样调 查的结果,对人口普查的数字进行适当的修正.抽样调查在普查不可靠时是一种补充办 法.如何安排抽样调查,这是有效收集数据的重要问题,这构成数理统计学的一个重要 分支一抽样调查方法.例4.12考察某地区IOooO农户的经济状况.从中挑选10。户做抽样调查.若该地区分成 平原和山区两部分,平原地区较富,占该地区农户的7。,山区的3。农户较穷.我们的 抽样方案规定在抽取的100户中,从平原地区抽7。户,山区抽3。户,在各自范围内用随机 化方法抽取.在本例中有效收集数据是通过合理地设计抽样方案来实现的.在通过
4、试验收集数 据的情形如何做到有效收集数据,请看下例:例4.1.3.某化工产品的得率与温度、压力和原料配方有关.为提高得率,通过试验寻找 最佳生产条件.试验因素和水平如下样品因素/1234期8100012001400压力10203040配方ABCD3个因素,每个因素4个水平共要做43 = 64次试验.做这么多试验人力、物力、财力都不 可能.因此,如何通过尽可能少的试验获得尽可能多的信息?比如来用正交表安排试验 就是一种有效的方法.如何安排试验方案和分析试验结果,这构成数理统计的另一分支一试验的设计和 分析.在本例中有效收集数据是通过科学安排试验的方法来实现的.在有效收集数据中一个重要问题是:数据
5、必须具有随机性.2 .有效的使用数据获取数据后,需要用有效的方法,去集中和提取数据中的有关信息、,以对所研究的 问题作出一定的结论,在统计上称为“推断”.为了有效的使用数据进行统计推断,需要对数据建立一个统计模型,并给定某些准 则去评判不同统计推断方法的优劣.例4.1.4.为估计一个物体的重量a才巴它在天平上称5次获得数据Xi , X2, X X X , 5,它们都 受到随机性因素的影响(天平的精度反映了影响的大小).估计a的大小有下列三种不同 方法:(1)用5个数的算术平均值J = 1(1 + XXX + X5)去(古计a;(2)将Xi , X2 , X X X , 5按大 小排列为X(1)
6、 2 X(2) 2 X X X 2 X,取中间一个值X去估计a;(3)用W = YX+ x(5) 去估计a你可能认为7优于x(3),而x(3)优于W.这是不是对的?为什么是这样?在什 么条件下才对?事实上,对这些问题的研究正是数理统计学的任务.要回答这些问题我们需要对数据建立一个统计模型和制定评判不同统计推断方法 的准则.本例中在适当的假定下,可认为数据服从正态模型.下面我们举一个例子说明采用合适的统计方法也是有效使用数据的一个重要方面.例4.15某农村有100户农户,要调查此村农民是否脱贫.脱贫的标准是每户年均收入 超过1万元.经调查此村90户农户年收入5000元,10户农户年收入10万元,
7、问此村农民是 否脱贫?(1)用算术平均值计算该村农户年均收入如下:f = (90 0.5 + 10 10)/100 = IAS(Jj)按此方法得出结论:该村农民已脱贫.但90%的农户年均收入只有5000元,事实上并未脱 贫.(2)用样本中位数计算该村农户年均收入:即将100户的年收入记为H , x2, XXX, 1OO ,将其按大小排列为X(1) 2 X(2) 2 X X X 2 X(IOO).样本中位数定义为排在最中间两户的 平均值,即(50) + X(51)2 = 0.5(万)按此方法得出结论:该村农民尚未脱贫.这与实际情况相符.3 .数理统计方法的归纳性质数理统计是数学的一个分支,但是它
8、的推理方法是不一样的.统计方法的本质是归 纳式的,而数学则是演绎式的.统计方法的归纳性质,源于它在作结论时,是根据所观察 到的大量的“个别情况,归纳”起来所得.而不是从一些假设、命题或已知事实出发按 一定的逻辑推理得出来的(这后者称为演绎推理).举一例子说明:统计学家通过大量的 观察资料发现,吸烟与某种呼吸系统的疾病有关.他得出这一结论的根据是:从观察到 的大量例子,看到吸烟者中患此种疾病的比例远高于不吸烟者.他不可能用逻辑推理的 方法证明这一点.试拿统计学与几何学进行比较就可以清楚地看出二者方法的差别所 在.在几何学中要证明”等腰三角形两底角相等,只需从等腰这个前提出发,运用几何 公理,一步
9、步地推出这个结论(这一方法属于演绎推理).而一个习惯于统计方法的人, 就可能想出这样的方法:作很多大小形状不一的等腰三角形,实际测量它的底角查看区 别如何,根据所得数据,看看可否作出底角相等的结论,这属于归纳推理的方法.众所周知,归纳推理是要冒风险的.事实上归纳推理的不确定性的出现,是一种逻 辑的必然.人们不可能做出十分肯定的结论,因为归纳推理所依据的数据具有随机性. 然而,不确定性的推理是可行的,所以推理的不确定性程度是可以计算的.统计学的作 用之一就是提供归纳推理和计算不确定性程度的方法.不确定性是用概率计算的.以后 会见到我们求参数的区间估计,不但给出区间估计的表达式,而且给出这一估计区
10、间包 含未知参数的可靠程度的大小.?4.1.2数理统计学的应用人类在科学研究、生产和管理等各方面的活动,大都离不开数据资料的收集、整理 和分析的工作.因此统计学的应用领域也及其广泛.1 .国家行政机关和各种职能机构的工作,需要经常收集各种有关的数据资料,以了 解情况并做出相应的决策.这里面的统计工作,固然有大量的描述性统计的成份,但统 计推断的方法也很有用并且十分必要.例如在判断某一时期经济运行是否过热,以便采 取宏观调控措施等重大决策时,对当时经济运行种数据和资料进行定量分析是必不可少 的.这就离不开统计推断方法.用数理统计方法进行社会调查,这种工作常属于国家职能部门的工作范围.抽样调 杳“
11、是常用的方法.统计学的方法在决定调查规模和制定有效的抽样方案是很有用,统 计推断方法在对调杳得来的资料进行正确分析时也有指导意义.例如经过精心设计和组 织的社会抽样调查,其效果有时可达到甚至超过全面调查的水平.在人口学中,确定一 个合适的人口发展动态模型需要掌握大量的观察资料,而且要使用包括统计方法在内的 一些科学方法.再如,社会保险基金需要用到精算学,建立精算模型、对寿命数据的分析 都要用到许多统计方法.2 .在工农业生产中我们常常要利用试验设计和方差分析的方法寻找最佳生产条件. 例如为提高农业中的单位面积产量,有一些因素对这个指标有影响:种子的品种、施肥量 和浇水量等;工业生产中影响某项产
12、品质量指标的因素有原材料产地、配方、温度和压 力等因素;为了找到一组较好的生产条件就要进行试验.如何科学的安排试验和分析试 验结果,就需要用到统计方法.试验设计的基本思想和方差分析方法就是R.A. FiSher等 在1923- 1926年期间,在进行田间试验中发展起来的,这一方法后来广泛应用于工业生 产中.数理统计方法应用于工业生产的另一个重要方面是产品质量控制、抽样调查和工 业产品寿命的可靠性问题.现代工业生产有批量大和很高可靠度的特点,需要在连续生 产过程中进行工序控制.成批的产品在交付使用前要进行验收,这种验收一般不能进行 全面检验,而只能是抽样验收,需要根据统计学的原理制定合适的抽样方
13、案.大型设备或 复杂产品(如导弹)包含成千上万个元件.由于元件的数目很大,元件的寿命服从一定的 概率分布,整个设备(或产品)的寿命与其结构和元件的寿命分布有关,为了估计设备(或 产品)的可靠性,发展了一系列的统计方法.统计质量管理就是由上述提到的这些方法 构成的.3 .数理统计方法在经济和金融领域也有广泛的应用,在经济学中定量分析的趋势 比其他社会科学部门更早更深入.现在有一门叫做“计量经济学的学科,其内容主要就 是将统计方法(及其他数学方法)用于分析种种经济问题的数量方面.例如早在20世纪 二、三十年代时间序列的统计分析方法就用于市场预测,目前在金融等领域也广泛的使 用时间序列方法.4 .统
14、计方法在生物、医学和遗传学中有广泛的应用.一种药品的疗效如何,要通过 细心安排的试验并使用正确的统计分析方法,才能比较可靠地做出结论.分析某种疾病 的发生是否与特定因素有关(一个典型的例子是吸烟与患肺癌的关系),这些问题常常是 从观察和分析大量资料的基础上得到启示,再提高到理论上的研究.这方面的应用还有 流行病数据的统计分析、遗传基因数据的统计分析等.5 .数理统计方法在气象预报、水文、地震、地质等领域有广泛应用.在这类领域中, 人们对事物规律性的认识不充分,使用统计方法有助于获得一些潜在规律性的认识,用 以指导人们的行动.6 .数理统计方法在科学研究中也具有重要作用.自然科学研究的根本任务是
15、揭示 自然界的规律性,科学试验是重要手段,而随机因素对试验结果的影响无所不在.一个 好的统计方法有助于提取观察和实验数据中带根本性的信息,因而有助于提出较正确的 理论或假说.有了一定的理论和假说后,统计方法可以指导研究工作者如何进一步安排 试验或观察,以使所得数据更有助于判定定理或假说是否正确.数理统计学也提供了理 论上有效的方法去估量观察或试验数据与理论的符合程度如何.一个著名的例子是遗传 学中的Mendal定律.这个根据观察资料提出的定律,经历了严格的统计检验.由此可见 数理统计方法是科学研究中一个必不可少的手段.另一方面,应用上的需要又是统计方法发展的动力.例如现代统计学的奠基人、英 国
16、著名学者RA FisherffiK. PearSon在20世纪初期从事统计学的研究,就是出于生物学、 遗传学和农业科学方面的需求.?4.1.3统计学发展简史数理统计学是一门较年轻的学科,它主要的发展是从20世纪初开始.大概可分为两 个阶段.前一阶段大致上到第二次世界大战结束时为止.在这一早期发展阶段中,起主导 作用的是以RA FiSher和K. PearSOn为首的英国学派,特别是FiSher,在本学科的发展中起 了独特的作用.其他一些著名的学者,如W.S. Gosset (Student). J. Neymanx E.S. Pearson (K. Pearson的儿子)、A. Wald以及我国的许宝景教授等都作出了根本性的贡献