《抽样调查教案6系统抽样.docx》由会员分享,可在线阅读,更多相关《抽样调查教案6系统抽样.docx(16页珍藏版)》请在优知文库上搜索。
1、抽样调查教案6系统抽样6.1引言6.1.1 定义定义6.1/6.2系统抽样(systematicsampling)又称之等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序与规律依次抽取其余的样本点,最终构成样本。这种抽样被称之系统抽样是由于这种抽样的第一个样本点尽管随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身:比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或者若干个样品进行检查;农业上为估计农作物产量或者病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或
2、者调查,等等。本章只作简单方法介绍。更多内容参见文献2、文献3。6.1.2 系统抽样的通常方法定义6.3直线等距抽样假设总体单元数为N,样本容量为,N为的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔左=%,(当N不是的整数倍时,可令人等于最接近的整数)。然后在第一阶段1上个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:nkf升2匕,直至抽取了n个单元。抽取的样本编号为:r+(j-l)k2,.,n)o12.rkZ+1Z+2.A+rIk2Z+12Z+2.2k+r3kk+r2k+r(n)k+rk为抽取间隔)比如某学院有200个学生,要抽取10个学生作为样本。首先计
3、算上=%=20,然后在120中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4圆形等距抽样(Lahiri)这种方法要紧适用于G=%不为整数时。由于当女不为整数,取其最接近的整数时,实际样本容量可能与相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。1IO例:设总体N=IO,其标志值分别为X,L,,几,总体均值为P=GX匕。若要求样本容量为=3,使用直线等距抽样,验证样本均值是否为总体均值的无偏估计?解:先计算间距2=%=103=3.33.,取k=3,在13中取一个随机起点,然后每隔3个
4、单元抽取1个单元可得下列的可能样本:z=li=2i=3XVy2L24V丫5n1IKon三个可能的系统抽样样本均值分别为:%=(X+L+%+YO)/4,%=化+X+%)3,%=(4+E+%)3所有e(v)=;(%+%+%)=Y,因此样本均值不是总体均值的无偏估计。在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将N个总体单元排成首尾相接的一个圆。抽样间距k取最接近%的整数,从1N中随机抽取一个随机起点作为起始单元,然后每隔上个抽取一个,直到抽取个为止。假如序号大于N时,将其减去N得到的在1N中的号码入选。正是由于排列为圆形而非直线且随机起点在1N中
5、而非在1灯(或者伙+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。若是圆形等距抽样,则在110中抽取一个随机起点,假设为7,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是匕、匕入样。考虑到实际问题中,通常比较大(大于等与50),多一个少一个并无关宏旨,因此能够不必考虑M不是整数的影响,故通常我们都假定N是的整数倍。3不等概率抽样法不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是城S系统抽样,即入样的概率匹与单元规模大小成比例的系统抽样。令Mo=知,表示所有单元规模大小总与,则肛=3(包含概率,见不放回不等概率抽样)。在实际中,不等概率的实施常使
6、用代码法。如下所示:先将单元规模(不失通常性,设其为整数)值累加,欲从总体中抽取容量为的样本,取最接近也的整数A为抽样间距,从1,中随机抽取一个整数n作为起点,则代码厂,什K,什(-1火所对应的单元入样。例7.1设总体由10个行政村构成,N=10,每个行政村人数为M,见表7.1。利用让S系统抽样抽取n=3个行政村样本。表7.1用苏S系统抽样抽取行政村行政村编号人数Mj累计人数抽中号码1103103100*24325353966314246877723*584961673103472051239816814071346*91461553103171870合计1870&=历。/=623,从1623
7、中抽取一整数,比如是r=100,则=100,厂+攵=723,r+2A=1346所对应的行政村入样,其序号分别为1、4、8。这种方法,当所有单元规模M,&时,每个单元不可能重复,是一种不重复抽样;当左M,24,第i个单元为必定被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必定调查单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。6.1.3 总体单元排序1按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系2按有关标志排序调查身高时,按入校体检的身高顺序排列3介于以上两者之间6.1.4 系统抽样的优缺点优点:系统抽样是实际中常
8、用的一种抽样方法,1其简单易行,只要确定起点与间距,便于推广2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识熟悉,并有有关的标志能够利用时,能够运用己知的信息先对总体单元进行排列,再使用系统抽样,就能提高系统抽样的效率。但缺点也很明显:1方差复杂,难以估计2假如单元排列存在周期性,而抽样者缺乏对此熟悉,则很容易抽取出的样本代表性很差。比如,要调查70路每天的客流量,使用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。6.1.5系统抽样与整群抽样与分层抽样的关系系统抽样能够看作特
9、殊的整群抽样与分层抽样表6-1系统抽样的总体单元123.j.n行平均1XMj-I袂+1(n-l)+lyl2L匕+2(7-l)+2M-l*+2%3L匕+3%j-lt+3(rt-l)+3%ryrLV2(j-)+Y2(n-l)i+rk匕%.YjkYfIkyk列平均匕Y.2匕匕见下表6-1,假如将每一行单元视为一个群,则总体由Z个群构成,每个群规模大小都为。系统抽样从。,匕,L中任选一个,被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样能够看成从女个群中随机抽取1个群的整群抽样。同样将每一列视为一层,则总体由个层构成,每个层大小都为讥系统抽样能够看作从每个层中抽
10、取一个单元的分层抽样,但由于样本单元在各层位置相同,因此系统抽样不一致与分层抽样。表6-2系统抽样总体单元重新编号12j.n群平均1丫12儿匕.2丫21%匕y2flY2.r匕yr2-YrjrnYr*.*kYH匕2Ykj匕”匕.层平均匕Y.2.YjYftY6.2等概率系统抽样估计量为讨论方便,今后总是设N=成。6.2.1符号说明第行第j列单元指标Yrj,参照表6-2换个排序方式有Yrj=Y(Hk+r总体单元数M样本单元数总体方差52=白(丫町总体(群)均值匕=t%,r=l,2,#(每行均值);=1样本(群)均值勇=力为=4=%,厂=12,女1nJ=I系统样本均值ysy=,Z%=匕,J=I1*1k
11、总体层均值=r2%,/=1,2,,或者a=,为,J=l,2,(每kr=lkr=j列均值)6.2.2估计量假设起始点为则相应的系统样本的平均值为191yr=-y11=d(6.1)n;=1n;=1(群内普查)取系统样本平均值作为总体均值yN6的估计量,即:/Yr=ly=1nr=l;=11nysy=yr=-yrj=-Yrj=Yr(62)(由于群内普查)nj=n;=1定理6.1当N=nk,有Z个可能样本)=T=F,因此是无偏估计。kIv(J=-r)2=(yr-F)2(6.9)(方差定义)Kr=I定理6.2用系统样本(群)内方差Siy表示S,=瓦!刁与(力-歹)为系统样本(群)内方差(类似整群抽样中的定
12、义)由于系统抽样相当于抽取一个群的整群抽样,因此群内的单元差异大小,也即系统样本内的差异大小会直接影响系统抽样的效果,故定义了系统样本(群)内方差SM,它反映了所有Z个可能系统样本内的方差大小。因此能够想象,与整群抽样一样,系统样本内方差愈大,抽样效率愈高。注意此习惯叙述,(大写)本该表示总体,由于群内普查,这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。VG)=12-如(6.10)Vsy/NN-证明:仍-15=力(为-行=(yrj-yyr-Y)2r=ly=lr=1j=(-)2+nbr-Y)2(交叉项为0)r=l;=lF=I=U,Y(-f)2r=j=lKT两边同除以N=根据方差定义与S:定义,得到V(yvj=2-fcl)SvnV,NN假如直接用简单随机抽样,则V(y5J=52,作差:NnVG)-M%)=F(s,s2),因此S2,即系统样本内方差大于总体方差时,系统抽样优于简单随机抽样当S2+(”-I)AJ。#由定理6.