抽样调查样本量的确定_侯志强

2022-04-29 来源：个人技术集锦

新视角

抽样调查样本量的确定

侯志强　吴启富

(1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。确定样本量需要综合考虑费用与精度。抽样方式也是影响样本量的一个重要因素。简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。分层随机抽样的样本量还受各层样本量分配方式的影响。复杂抽样的样本量需要借助抽样设计效应才能计算。样本量经过调整后才能满足实际调查的需要。关键词:抽样调查;样本量;费用;精度;设计效应

1,2

一、引言

抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。抽取个体的数量称为样本量。在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。因此,样本量受费用与精度的双重制约。简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。

二、简单随机抽样样本量的确定

在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。通常的费用函数为

Ccc　　　　(1)T=0+1n其中,CT表示总费用,c0表示固定费用,c1表示调查一个样本单元的平均费用,n表示样本量。

那么,样本量为

CcT-0n=　　　　(2)

通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为nU。

简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。

例如,已知总体方差为 ,需估计总体均值X,其简单

—

估计量为样本均值x,则在重复抽样条件下,估计量方差为

— D(x)=　　　　(3)

—

若要求估计量x的方差不许超过常数V,则有2

≤V　　　　(4)n

从而样本量满足

2 n≥　　　　(5)

V通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为nL。

—

当n≤nLU时,样本量可取nL与nU之间的任何值;

当nnL>U时,必需认真权衡费用与精度,若费用更重要,则取n否则,取n。U;L

若需要估计总体比例P,则其简单估计量为样本比例p,在重复抽样条件下,估计量方差为

P(1-P)

D(p)=　　　　(6)

若要求估计量P的方差不许超过常数V,则有P(1-P)

≤V　　　　(7)n

从而样本量满足

P(1-P)n≥　　　　(8)

容易知道,P(1-P)在P=0.5时取到最大值0.25,从而可得一个“保守”的样本量

0.25n　　　　(9)a=V

许多人正是根据式(9)来确定所谓的“保守”样本量,但对于较小的总体比例P,这个“保守”样本量从估计量离散系数的角度看根本谈不上“保守”。详述如下:

已知估计量p的离散系数为D(p)1-P=　　　　(10)PnP

从式(10)可以看出,当n取“保守”的样本量na时,随着总体比例P从1到0变化,估计量的离散系数CV(p)逐渐增加。不难想象,当P小到一定程度时,CV(p)将大到不能容忍的程度。

一个自然的修正方法是:除根据估计量的方差上限确定样本量外,再根据估计量的离散系数上限确定样本量,然后取两者中较大者。

设最小的总体比例P=P的离散系数不L,限定估计量p许超过常数C。则根据式(10),可得另一个“保守”的样本量

1-Pn　　　　(11)b=2

CPL

这样,取这两个“保守”样本量的较大者,即n=max(n　　　　(12)a,nb)

CV(p)=　108　经济理论研究新视角

则可同时满足估计量方差上限与估计量离散系数上限这两个精度要求。

当总体比例P特别小且又得不到较可靠的估计p时,利用式(9)或式(11)计算的样本量不太令人满意,这是因为na对于p的波动非常敏感,p的较小波动会导致na的较大波动。逆抽样方法可以解决这个问题。

逆抽样方法要求事先确定一个较小的正整数m(m越大,估计精度就越高),然后进行简单随机抽样,直到抽中m个具有所考虑特征的单元为止。设此时样本量为n,容易知道,n是一个随机变量,且近似服从负二项分布,其期望为

mE(n)=　　　　(13)

样,第一阶段采用分层PPS抽样抽取初级抽样单元(PSU),第二阶段采用整群系统抽样抽取最终抽样单元(USU)。当实际产生的USU过大时,还需要进行第三阶段抽样。

CPS对全国失业率估计的精度要求是离散系数不许超过1.8%。假定全国失业率的下限P5%则根据式(11)可L=以确定简单随机抽样的样本量n58642人,即需调查b=

58642个经济活动人口。按每户两个经济活动人口折算,共需调查29321户家庭。

根据历史数据,deff值在1.3左右,因此,CPS的样本量应为29321×1.3=38118户。

五、样本量的调整

抽样调查不可避免存在无回答现象,所以,实际调查中,必须对上述样本量进行调整。调整公式为

调整前样本量

调整后样本量=有效回答率

在CPS中,假如有效回答率为75%,则调整后样本量应为50824户,这个数字与实际调查的样本量5万户十分接近。

三、分层随机抽样样本量的确定

在分层随机抽样中,由于各层的总体方差不同,单位调查费用也不同,所以,各层样本量的分配既影响总费用又影响估计精度。

在样本量一定的情况下,要使估计量方差达到最小,可以证明各层的样本量应为

WShhch

nnL　　　　(h=1,2,…,L)　　　　(14)h=

WShh∑h=1

其中,h为层的编号,L为层的个数,n层的样本h为第h量,n为总样本量,W层的总体单位数占各层总体单h为第h位数之和的比例,S层的标准差,c层每调查h为第hh为第h一个单位的平均费用。

假设总费用函数为

Cc∑n15)T=0+hch　　　　(

h=1L

六、结论

样本量的确定过程本质上是费用与精度的权衡过程。

在简单随机抽样需要估计多个总体比例时,对于较大的总体比例,宜用估计量方差上限确定样本量,对于较小的总体比例,宜用估计量离散系数上限确定样本量,然后取这两个样本量中的较大者作为调查的样本量。分层随机抽样的样本量还受各层样本量分配方式的影响。复杂抽样的样本量等于相同精度下简单随机抽样的样本量乘以复杂抽样的设计效应。实际调查中必须按照有效回答率对样本量进行调整。参考文献:[1]孙山泽.抽样调查[M].北京:北京大学出版社.2004.2.[2]倪家勋主译,孙山泽校译.抽样调查[M].北京:中国统计出版社,1997.10.

[3]冯士雍,倪加勋,邹国华.抽样调查原理与方法[M].北京:中国统计出版社,1998.3.[4]金勇进,蒋妍,李序颖.抽样技术[M].北京:中国人民大学出版社,2002.6.[5]杜子芳.抽样技术[M].北京:中国统计出版社,2004.11.[6]WilliamG.Cochran,《SamplingTechniques》[M].3rdedi-tion,JohnWiley＆Sons,1977.[7]U.S.CensusBureauandBureauofLaborStatistics,Current

PopulationSurvey,DesignandMethodology[J],TechnicalPaper63RV,2002.3.作者简介:1.侯志强,北方工业大学统计学系讲师,中国人民大学统计学院博士,研究方向:抽样技术。2.吴启富,首都经济贸易大学统计学院副教授,首都经济贸易大学硕士毕业,研究方向:经济统计。

则将式(14)代入式(15)可解得总样本量为

WShhch

n=(C-c)　　　　(16)T0L

∑WSchhh

h=1

式(16)所确定的样本量既能满足总费用要求,又使得

估计精度最高。

四、复杂抽样样本量的确定

复杂抽样的估计量方差通常不容易用常规方法导出,因此,样本量就不能用常规方法得到。事实上,对于复杂抽样,常采用下式计算样本量

nn·deff　　　　(17)c=其中n为复杂抽样的样本量,n为相同精度下简单随机c

抽样的样本量,deff为复杂抽样的设计效应,其定义为

所考虑复杂抽样估计量的方差

deff=相同样本量下简单随机抽样估计量的方差deff通常采用经验法或历史数据法等估计。以美国的CPS(CurrentPopulationSurvey)为例说明复杂抽样样本量的确定过程。

CPS抽样设计极其复杂。其主体部分是分层两阶段抽

经济理论研究　109

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

抽样调查样本量的确定_侯志强