《中国人民大学题库答案详解抽样技术.docx》由会员分享,可在线阅读,更多相关《中国人民大学题库答案详解抽样技术.docx(58页珍藏版)》请在优知文库上搜索。
1、中国人民大学题库答案详解抽样技术中国人民大学同等学力申请硕士学位课程考试试题课程代码:123105课程名称:抽样技术与方法试题卷号:1名词解释:非概率抽样是调查者根据自己的方便或主观判断抽取样本的方法,其最主要特征是抽取样本时并不依据随机原则。包括判断选样、方便抽样、自愿样本、配额抽样等。最优分配是在分层随机抽样中,对于给定的费用,使估计量的方差V(yJ)st)达到最小,或者对于给定的估计量方差V,使总费用达到最小的各层样本量分配。PPS抽样是有放回的按规模大小成比例的概率抽样,其抽选样本的方法有代码法、拉希里方法等。PPS抽样属于概率抽样的一种,在多阶段抽样中,初级抽样单位被抽中的机率取决于
2、其规模大小。自加权样本是指每个样本单元的设计权数相同,即每个单元最终入样的概率相等。在不考虑非抽样误差时,自加权样本可以完全代表总体,且方差较小,样本统计量更稳健。简述题:抽样调查除了抽样误差外,还存在非抽样误差,因此不能简单地认为全面调查就一定比抽样调查更准确。全面调查虽然没有抽样误差,但在数据采集和整理过程中可能产生更大的其他误差。相比之下,抽样调查的工作量较小,可以使用素质较高的工作人员并进行深入培训,并对调查过程实施更细致的监督和检查,从而使抽样调查的总误差可能更小。因此,抽样调查并不一定不如全面调查准确。试对分层抽样中的联合比率估计和分别比率估计方法进行比较。如果每一层都满足比率估计
3、量有效的条件,则除非Rh=R,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。此外,联合比估计不像分别比那样需要已知每层的辅助信息Xho计算题某住宅区调查居民的用水情况,该区共有=100O户,调查了二100户,得yj)=12.5吨,s2=1252,有40户用水超过了规定的标准。要求计算:(1)该住宅区总的用水量
4、及95%的置信区间;(2)若要求估计的相对误差不超过10%,应抽多少户作为样本?(3)以95%的可靠性估计超过用水标准的户数;(4)若认为估计用水超标户的置信区间过宽,要求缩短一半应抽多少户作为样本?【解】己矢口N=l()00,n=100,f=nN=1001000=0.l,yJ)=I2.5,s2=1252(1)估计该住宅区总的用水量Y为:Y(八)=Nyj)=100O*12.5=12500吨估计该住宅区总的用水量Y的方差和标准差为:V(Y()N2v(y(J)=N21-fns2=10002*1-0.1100*1252=11268000s(Y()=SQRT(v(Y()=112680003356.78
5、42因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:Y()z0.025s(Y()=125001.96*3356.7842125006579即,我们可以以95%的把握认为该住宅总的用水量在5921吨19079吨之间。(2)根据题意,要求估计的相对误差不超过10%,即).l,假定置信度为95%根据公式:n=z2s2r2y2=l.96212520.1212.523078由于n0N=3.0780.05,所以需要对n进行修正:n=n1+nON=3O7813.078755若要求估计的相对误差不超过10%,应抽不少于755户作为样本。或:n0=l(lNd2(z22s2)755(d=ry(J=1.
6、25)(3)令超过用水标准的户数为A,样本中超过用水标准的户数为a=40,估计超过用水标准的比例p为:p=an=40100=40%估计超过用水标准的比例p的方差和标准差为:v(p)=l-fn-lp(l-p)=1-0.1100-1*40%*60%0.002182s(p尸V(P)=O.0021824.67%在95%的可靠性下,超过用水标准的比例P的估计区间为:p+z0.025s(p)=40%+l.96*4.67%因此,我们有95%的把握认为,超过用水标准的比例P在30.85%-49.15%之间,超过用水标准的户数的点估计为:l()00*40%=4()0户,超过用水标准的户数在1()0()*30.8
7、5%户10()0*4915%户之间,即309户492户之间。或:pz0.025(l-fn-lp(l-p)代入得(0.3089,().4911)(4)若要置信区间的宽度缩小为原来一半,即要求应抽取的户数n满足方程z0.0251-fn-1p(1.p尸l2*z0.025v(p)0.045766代入数据解得n=306.25306户。为估计市区人均居住面积,按与各区人数呈比例的概率从12个区中抽了4个区,经调查的数据如下:样本区号区居住面积(米2)人口数12835326604746216709964560353183522647098142895058585257试对市区人均居住面积作点估计和置信度为9
8、5%的区间估计。【解】设居住面积为Y,人口数为X,N=12,n=4,f=nN=l3o人均居住面积点估计值为R()=14yi14xi=923660621170194.363米2/人.sy2=In-11n(yi-rxi)2=1314(yi-rxi)2=13(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363M70981)2+(2895058-4.363*585257)2户101742707182.336373V(Re)=V(r)lx21fnlm1ln(yi-rxi)2=l-l34sy2x216*101742707182.336
9、37370027647599.3906250.24215s(R()=V(r0.242150.492因此置信度为95%的区间估计为:43631.96*0.492,即(3.3987,5.3273)试题卷号:2名词解释概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。(概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。)具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的
10、概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。事后分层又称抽样后分层,是对一个总体先进行简单随机抽样或系统抽样,抽取一个样本量为n的样本,然后对样本中的单元按某些特征进行分层并进行分层抽样估计。兀PS抽样是不放回的与单元大小成比例的概率抽样(该抽样方法是在总体抽取样本时,借助总体单元大小或规模(Mi)的辅助变量来确定单元入样概率(Zi)或包含概
11、率(11i,11ij)的方法)随机化回答在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化的方式来获取回答信息并进行估计的技术,我们称之为随机化回答。简述题什么是抽样框?简述抽样框的类型和作用,以及良好抽样框的标志。总体的具体表现是抽样框。通常,抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随
12、机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。抽样框有不同类型:名录框(总体中所有单元实际的名录清单,如在校学生名单、企业名册、电话号码簿等)、区域框(其单元由地理区域构成的集合,抽样总体由这些地理区域组成)、自然框(把相关的自然现象概念(如时间、距离等)作为抽样框使用)。抽样框对抽样调查具有十分重要的作用。1)首先,抽样框是代表总体进行抽样的,抽样框的缺陷会造成目标总体与调查总体不一致,在估计中出现偏差;2)其次,抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的,如果出现错误,可能会产生无法联系而造成无回答;3)抽样框中的辅助资料可以用
13、来进行分层等以改进抽样设计或改进估计方法,以提高抽样效率。因此完备的抽样框是做好抽样调查的前提条件。良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合,也就是目标总体单元和抽样总体单元完全呈一一对应的关系。具体来讲:1)关联性,指抽样框与目标总体的对应程度,要求两者之间尽可能地关联;2)准确性,涵盖误差尽可能小,分类是否准确?联系资料是否完整?辅助资料是否齐全等;3)时效性,抽样框是否及时更新;4)最后还可以从建立抽样框的费用进行评估。对多阶段抽样中自加权的有关问题进行论述。由于不等概率抽样往往不满足自加权,因此在多阶段抽样中,最后一阶按等概率(如SRS等)抽取最终单元(USU)
14、,其它阶段采用PPS,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。计算题从某农村的200户中随机等概率(无放回)抽取50户,发现其中8户有自行车,这8户人数分别为3,5,3,4,7,4,4,5人。根据这一资料要求:(1)估计该村具有自行车的户数及其估计精度;(2)估计该村具有自行车的总人数及其估计精度。【解】由已知得:N=200,n=50,f=n/N=O.25总体中具有自行车户数的比例为P(1)这次简单随机抽样得到的P的估计值=8/50=0.16,即具有自行车的户数估计值Y(八)=Np=O.16*200=32.所以总体比例P在95%情况下的置信区间可以写为:pz0.025v(p)
15、其中v(p)=1-fn-1p(1-p)0.002057,v(Y(八)=v(Np)=N2v(p)=82.28故P的置信区间:0.161.96*0.(X)2057=0.160.0889。所以户数的置信区间为:200*(0.160.0889)BP14,50(2)有自行车家庭人数M,则n0=8,m(_)=InoI8mi=4.375,从而具有自行车的总人数估计值为M()=Y()m(J=32*4.375=140os2=ln-lln(mi-m)21.696则V(m(_)=1-fns2=1-0.258*1.696=0.159,因止匕V(M(八))=V(Y(八)m(_)尸Y)2V(mJ)=322*Q159=16
16、2.816s(M()=162.81613某城市共有1000家餐馆,分为大中小三层,现预估计在餐馆就餐的人数,采用抽样调查,根据以往资料层NhSh2中3002500小600400大100lOOO(1)若欲估计就餐总人数的误差不超过4000人,可靠性为95%,采用最优分配应抽多少家餐馆作为样本(假设每层每户的调查费用相等);(2)若不按比例抽样在数据上比较复杂,其费用相当于调查50家餐馆,因此从效益上看改为按比例抽样是否值得?【解】根据如上表格按中、小、大依次分层:Nl=300,N2=600,N3=100,N=1000,S12=2500,S22=400,S32=1000(1)总人数绝对误差限dy=4000,所以y(Jst的绝对误差限为d=dyN=