抽样调查教案6系统抽样.docx

资源描述

《抽样调查教案6系统抽样.docx》由会员分享，可在线阅读，更多相关《抽样调查教案6系统抽样.docx（16页珍藏版）》请在优知文库上搜索。

1、抽样调查教案6系统抽样6.1引言6.1.1 定义定义6.1/6.2系统抽样(systematicsampling)又称之等距抽样、机械抽样。按照这种抽样方法，从总体中抽取第一个样本点(随机起点)，然后按某种固定的顺序与规律依次抽取其余的样本点，最终构成样本。这种抽样被称之系统抽样是由于这种抽样的第一个样本点尽管随机，但其余样本点的抽取看起来好像不再随机，因而是系统的。“牵一发而动全身:比如要对居民用户抽样，可按户口册每隔多少户抽一户；工厂为检查产品质量，在连续的生产线上每隔20分钟抽选一个或者若干个样品进行检查；农业上为估计农作物产量或者病虫危害，对一大片农田每隔一定距离抽取一块进行实际测量或

2、者调查，等等。本章只作简单方法介绍。更多内容参见文献2、文献3。6.1.2 系统抽样的通常方法定义6.3直线等距抽样假设总体单元数为N,样本容量为，N为的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔左=%,(当N不是的整数倍时，可令人等于最接近的整数)。然后在第一阶段1上个单元中随机抽取一个单元，假设为r,然后每隔k个单元抽取一个单元，即分别为：nkf升2匕,直至抽取了n个单元。抽取的样本编号为:r+(j-l)k2,.,n)o12.rkZ+1Z+2.A+rIk2Z+12Z+2.2k+r3kk+r2k+r(n)k+rk为抽取间隔)比如某学院有200个学生，要抽取10个学生作为样本。首先计

3、算上=%=20,然后在120中随机抽取一个数字，假设抽中排列中第3位的学生，则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4圆形等距抽样(Lahiri)这种方法要紧适用于G=%不为整数时。由于当女不为整数，取其最接近的整数时，实际样本容量可能与相差1,而且每个单元入样的概率不等，这时用直线等距抽样可能产生偏倚。1IO例：设总体N=IO,其标志值分别为X，L，,几，总体均值为P=GX匕。若要求样本容量为=3,使用直线等距抽样，验证样本均值是否为总体均值的无偏估计？解：先计算间距2=%=103=3.33.，取k=3,在13中取一个随机起点，然后每隔3个

4、单元抽取1个单元可得下列的可能样本：z=li=2i=3XVy2L24V丫5n1IKon三个可能的系统抽样样本均值分别为：%=(X+L+%+YO)/4,%=化+X+%)3,%=(4+E+%)3所有e(v)=；(%+%+%)=Y，因此样本均值不是总体均值的无偏估计。在这种情况下，样本均值将不等于总体均值，因而估计不是无偏的。为了使得样本均值是总体均值无偏估计，将N个总体单元排成首尾相接的一个圆。抽样间距k取最接近%的整数，从1N中随机抽取一个随机起点作为起始单元，然后每隔上个抽取一个，直到抽取个为止。假如序号大于N时，将其减去N得到的在1N中的号码入选。正是由于排列为圆形而非直线且随机起点在1N中

5、而非在1灯(或者伙+1)中，导致了该抽样下的每个样本严格等概率地被抽中，因而估计是无偏的。若是圆形等距抽样，则在110中抽取一个随机起点，假设为7,然后每隔3个单元取一个，它们的序号是7、10、13。事实上是匕、匕入样。考虑到实际问题中，通常比较大(大于等与50),多一个少一个并无关宏旨，因此能够不必考虑M不是整数的影响，故通常我们都假定N是的整数倍。3不等概率抽样法不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是城S系统抽样，即入样的概率匹与单元规模大小成比例的系统抽样。令Mo=知，表示所有单元规模大小总与，则肛=3（包含概率，见不放回不等概率抽样）。在实际中，不等概率的实施常使

6、用代码法。如下所示：先将单元规模（不失通常性，设其为整数）值累加，欲从总体中抽取容量为的样本，取最接近也的整数A为抽样间距，从1,中随机抽取一个整数n作为起点，则代码厂，什K,什（-1火所对应的单元入样。例7.1设总体由10个行政村构成，N=10,每个行政村人数为M,见表7.1。利用让S系统抽样抽取n=3个行政村样本。表7.1用苏S系统抽样抽取行政村行政村编号人数Mj累计人数抽中号码1103103100*24325353966314246877723*584961673103472051239816814071346*91461553103171870合计1870&=历。/=623,从1623

7、中抽取一整数，比如是r=100,则=100,厂+攵=723,r+2A=1346所对应的行政村入样，其序号分别为1、4、8。这种方法，当所有单元规模M,&时，每个单元不可能重复，是一种不重复抽样；当左M,24,第i个单元为必定被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必定调查单元，不再列入抽样总体，另一种方法是将大规模单元划分为几个小规模单元。6.1.3 总体单元排序1按无关标志排序，如调查学生视力，按学号排列，显然视力与学号没有关系2按有关标志排序调查身高时，按入校体检的身高顺序排列3介于以上两者之间6.1.4 系统抽样的优缺点优点：系统抽样是实际中常

8、用的一种抽样方法，1其简单易行，只要确定起点与间距，便于推广2便于利用已知信息，系统抽样的误差大小与总体单元的排列顺序有关，因此当对总体的结构有一定的认识熟悉，并有有关的标志能够利用时，能够运用己知的信息先对总体单元进行排列，再使用系统抽样，就能提高系统抽样的效率。但缺点也很明显：1方差复杂，难以估计2假如单元排列存在周期性，而抽样者缺乏对此熟悉，则很容易抽取出的样本代表性很差。比如，要调查70路每天的客流量，使用系统抽样，每周取一天,即每隔7天抽取一次。不管取了星期一到星期五，还是星期六到星期日中的哪天作为起点，样本代表性都很差。6.1.5系统抽样与整群抽样与分层抽样的关系系统抽样能够看作特

9、殊的整群抽样与分层抽样表6-1系统抽样的总体单元123.j.n行平均1XMj-I袂+1(n-l)+lyl2L匕+2(7-l)+2M-l*+2%3L匕+3%j-lt+3(rt-l)+3%ryrLV2(j-)+Y2(n-l)i+rk匕%.YjkYfIkyk列平均匕Y.2匕匕见下表6-1,假如将每一行单元视为一个群，则总体由Z个群构成，每个群规模大小都为。系统抽样从。，匕，L中任选一个，被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样能够看成从女个群中随机抽取1个群的整群抽样。同样将每一列视为一层，则总体由个层构成，每个层大小都为讥系统抽样能够看作从每个层中抽

10、取一个单元的分层抽样，但由于样本单元在各层位置相同，因此系统抽样不一致与分层抽样。表6-2系统抽样总体单元重新编号12j.n群平均1丫12儿匕.2丫21%匕y2flY2.r匕yr2-YrjrnYr*.*kYH匕2Ykj匕”匕.层平均匕Y.2.YjYftY6.2等概率系统抽样估计量为讨论方便，今后总是设N=成。6.2.1符号说明第行第j列单元指标Yrj,参照表6-2换个排序方式有Yrj=Y（Hk+r总体单元数M样本单元数总体方差52=白（丫町总体（群）均值匕=t%,r=l,2,#（每行均值）;=1样本（群）均值勇=力为=4=%，厂=12,女1nJ=I系统样本均值ysy=,Z%=匕，J=I1*1k

11、总体层均值=r2%,/=1,2,，或者a=，为，J=l,2,（每kr=lkr=j列均值）6.2.2估计量假设起始点为则相应的系统样本的平均值为191yr=-y11=d（6.1）n；=1n；=1（群内普查）取系统样本平均值作为总体均值yN6的估计量，即：/Yr=ly=1nr=l；=11nysy=yr=-yrj=-Yrj=Yr（62）（由于群内普查）nj=n；=1定理6.1当N=nk,有Z个可能样本）=T=F,因此是无偏估计。kIv（J=-r）2=（yr-F）2（6.9）（方差定义）Kr=I定理6.2用系统样本（群）内方差Siy表示S,=瓦!刁与（力-歹）为系统样本（群）内方差（类似整群抽样中的定

12、义）由于系统抽样相当于抽取一个群的整群抽样，因此群内的单元差异大小，也即系统样本内的差异大小会直接影响系统抽样的效果，故定义了系统样本（群）内方差SM,它反映了所有Z个可能系统样本内的方差大小。因此能够想象，与整群抽样一样，系统样本内方差愈大，抽样效率愈高。注意此习惯叙述，（大写）本该表示总体，由于群内普查，这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。VG）=12-如（6.10）Vsy/NN-证明：仍-15=力（为-行=（yrj-yyr-Y）2r=ly=lr=1j=（-）2+nbr-Y）2（交叉项为0）r=l；=lF=I=U,Y（-f）2r=j=lKT两边同除以N=根据方差定义与S：定义，得到V（yvj=2-fcl）SvnV，NN假如直接用简单随机抽样，则V（y5J=52,作差：NnVG）-M%）=F（s，s2）,因此S2,即系统样本内方差大于总体方差时，系统抽样优于简单随机抽样当S2+（”-I）AJ。#由定理6.

展开阅读全文