《第六章统计量及其抽样分布.docx》由会员分享,可在线阅读,更多相关《第六章统计量及其抽样分布.docx(13页珍藏版)》请在优知文库上搜索。
1、第六章统计量及其抽样分布第01讲引言、总体与样本第一节引言教材第一章到第五章的内容属于概率论的内容,在概率论的诸多问题中,往往假定随机变量的概率分布已知.但在处理实际问题的时候,我们考察的随机现象虽然可以用某个随机变量X去描述,但X的概率分布往往是未知的,这就需要我们用数理统计的方法来解决此类实际问题.举例:某公司要采购一批产品,每件产品要么是正品,要么是次品.若设这批产品的次品率为P(一般是未知的),则从该批产品中随机抽取一件,用X表示抽到的次品数,不难看出X服从OT分布B(1,P).但分布中的参数P是不知道的.显然,P的大小决定了该批产品的质量,它直接影响采购行为的经济效益,故人们对P提出
2、一些问题,例如:P的大小如何?P大概落在什么范围内?能否认为P满足设定要求(如pW5%)?第二节总体与样本2. 1总体与个体2.2 样本2.3 *样本数据的整理与显示注意:”2.3样本数据的整理与显示”为非自考内容2.4 总体与个体在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体.在实际问题中,构成总体的个体往往表现为一些实际存在的人或物;而抛开问题的实际背景,则总体就表现为一批数据,可以根据这些不同数据出现机会的多与少,即概率分布对总体进行描述与归纳.举例:考虑某厂的产品质量,将其产品只分为合格品与不合格品,并以“0”记合格品,以“1”记不合格品,则总体=该厂生产的
3、全部合格品与不合格品=由。或1组成的一堆数.若以P表示这堆数中1的比例(不合格品率),则该总体可由一个OT分布表示:X01PI-PP不同的P反映了总体间的差异.例如,两个生产同类产品的工厂,其产品总体分布分别为X01P0.9830.017X0IP0.9150.085由上述对比可见,第一个工厂的产品质量优于第二个工厂.但在现实情况中,不合格品率i般是未知的,需要进行估计.2.5 样本为了了解总体的分布,我们从总体中随机地抽取n个个体,记其指标值为X,X2,,X”,则X”X2,,Xn称为来自该总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品.样本具有所谓的二重性:一方面,由于样本
4、是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X”X2,,Xn表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值.此时用小写字母X,X2,,X”表示.最常用的抽样方法:翅郸S机抽样简单随机抽样1)样本具有随机性:即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一样品Xi与总体X有相同的分布.2)样本要本独立性:即要求样本中每一样品的取值不影响其他样品的取值,这意味着X“X2,Xn相互独立.用简单随机抽样方法得到的样本称为简单随机样本,也简称为样本.样本XI,X2,,Xn可以看成相互独立的具有同一分布的随机变量,其共同分布即为
5、总体分布.设总体X具有分布函数F(x),XX2,,Xn为取自该总体的容量为n的样本,则样本的联合分布函数为B尸(巧,“,4)=11F(xi).-1若总体具有概率密度函数f(),则样本的联合概率密度函数为H/(巧,巧,工)=11();il若总体X为离散型随机变量,则样本的联合分布律为双巧,X,*.)=IlP=*力注意:通常说的样本分布是指多维随机变量的联合分布。【例题计算题】为估计一物件的重量H,用一架天平重复测量n次,得样本Xi,X2,,Xn.由于是独立重复测量,X”X2,,Xn是简单随机样本.总体的分布即Xl的分布(X“X2,,Xn分布相同).由于称量误差是均值(期望)为零的正态变量,所以X
6、i可认为服从正态分布N(,。2),即Xi的概率密度为f(x)=Je5求样本分布的概率密度.【思考】正确答案样本分布的概率密度为I-/(g,.)=11/()=11-f=M7y2XC=7=iCXp-yV(Xf-幺(20=L2,0,其他答案解析参见教材P170。2.6 样本数据的整理与显示本部分为非自考内容第02讲统计量及其分布(一)第三节统计量及其分布3.1 统计量与抽样分布定义1设X“Xz,,Xn为取自某总体的样本,若样本函数T=T(X1,X2,Xn)中不含有任何未知参数,则称T为统计量.统计量的分布称为抽样分布.nnV若X,X2,,X”为样本,则r都是统计量.而当U,。2未知时,(Xi-)21
7、.lLl日等均不是统计量.3.2 经验分布函数0, FM=1,设X”X2,,Xn是取自总体分布函数为F(X)的样本,若样本观测值X”X2,Xn由小到大进行排列为X,X,X(n),则X,x(2)X(n),称为有序样本,用有序样本定义如下函数:XWv(E),k=1,2,n-1.x*,则Fn(X)是一非减右连续函数,且满足FnJ8)=0,R(+8)=l.由此可见,Fn(X)是一个分布函数,并称F“(x)为经验分布函数.3.3 样本均值及其抽样分布定义2设X“X2,,Xn为取自某总体的样本,其算术平均值称为样本均值,一般用N表示,即:氏工+工n1 JL样本观测值的均值用工表示,即H =样本均值的两个性
8、质(1)若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之和为0,即W(X-N) = O /-1证明:HMMZ(XLX) = Z 苟 X = ZX,fHMH(2)数据观察值与均值的与差平方和差小,即在形如 Z(”)2 的函数中,最小,其中c为任意给定的常数.证明:对于任意给定的常数c,-J)2+(J-c)2关于样本均值Jg的抽样分布,有如下定理定理1设X】,Xz,,Xn是来自总体X的样本,N为样本均值.11(1)若总体分布为n(U,O2),则X的精确分布为N(,-,n(2)若总体X分布未知(或不是正态分布),且E(X)=口,D(X)=2,则当样本容量n较大时,12X二一:X|的渐近分布为
9、N(,j),这里的渐近分布是指n较大时的近似分布.1,n证明:(1)Jg为独立正态随机变量的线性组合,故仍服从正态分布.G2E(X)二:(Xi)平D(X)=力AD(Xi)=所以KN(t).n证明:易知又=JzXI为独立同分布的随机变量之和,且E(X)=,D(X)=-117dn由中心极限定理,IimPx=(x)fnr*nJ这表明,当n较大时,区的渐近分布为N(,-).n3.4 样本方差与样本标准差定义3设X】,X2,,Xn是取自某总体的样本,则它关于样本均值京的平均偏差平方和称为样本方差,其算术根S=xf称为样本标准差.样本方差的观测值用S2表示,即S2=Jri(局-二上注意:由于样本标准差与样
10、本均值度量单位相同,因而样本标准差比样本方差更具有实际意义.n在上述定义中,n为样本容量,(-y为偏差平方和.Rl偏差平方和的三种表达式:MIrlII定理2设总体X具有二阶矩,即E(X)=fD(X)=22)2m2(mm-2)三(-2)1(-4)(4)T=-i_出-ur(-09JF)nit一2(w2)上表涉及一个重要函数(a)*称为伽马函数,表达式为()=x1e-zdx,a0.1. 2分布(卡方分布)定义6设X”X2,X“独立同分布于标准正态分布N(0,1),则/=X;+X:的分布称为自由度为n的2分布,记为2sx2(n).X2(n)分布的密度函数为Io,其他.其数学期望与方差分别为E(x2)=
11、n,D(x2)=2n.卡方分布的分位数当随机变量2s2S)时,对给定的,0a()=Q的是自由度为n的卡方分布的a分位数.示意图:尸(Z?()/()=Q分位数可以通过查表得到,例如n=10,=0.05,则通过教材P245附表4可查得Zill5(IO)三18.307.2. F分布定义7设X2(ln),2(n),与先独立,则称F=券/二的分布是自由度为In与n的F分2n布,记为FF(m,n),其中m称为分子自由度,n称为分母自由度.自由度为m与n的F分布的密度函数为特点:只取非负值的偏态分布F分布的分位数当随机变量FsF(m,n)时,对给定的a,0aFN,n)二a的数F0(m,n)是自由度为m与n的F分布的a分位数.注意:如果FSF(m,n),则有lFsF(n,m),且有2MW)=-(三)V分布的分位数可以通过查阅教