在对大量人口进行投票时,您如何确定样本量?


15

澳大利亚目前正在进行选举,可以理解,媒体每天都会报道新的政治民意调查结果。在一个2200万的国家中,需要多少百分比的人口才能获得统计上有效的结果?

使用太大的样本是否可能会影响结果,或者统计有效性是否随样本大小单调增加?

Answers:


13

样本数量并不太取决于人口数量,这与许多人的直觉相反。

大多数投票公司在样本中使用400或1000人。

有一个原因:

400的样本量将使您的置信区间为+/- 5%+/- 20(95%)中的19倍

1000的样本量将使您的+/- 3%的置信区间为20(95%)中的19倍

无论如何,当您测量比例接近50%时。

这个计算器还不错:

http://www.raosoft.com/samplesize.html


6
但是请注意,所有这些都是基于从同质种群中采样而来的。如果您具有异类总体(例如,不同子群体的比例不同,对总体的稀有部分进行采样),那么该方差估计就不太可靠了。(我认为)您实际在此处计算的估算值是针对您的样本所代表的总体。问题是:这个人口是您真正感兴趣的人口吗?
概率

9

假设您想知道有多少百分比的人会投票支持特定候选人(例如,请注意,根据定义,π介于0到100之间)。您随机抽样N个选民,以了解他们将如何投票,对这些N个选民的调查显示,该百分比为p。因此,您想为真实百分比建立一个置信区间。ππNNp

如果您假设是正态分布的(根据N的 “大”程度,一个合理的假设可能不成立),则您对π的置信区间将采用以下形式: C I = [ p - k s d p p + k * s d p ] 其中k是一个常数,取决于您想要的置信度(即95%或99%等)。pNπ

CI=[pksd(p),  p+ksd(p)]
k

MoE=ksd(p)

这就是我们计算:根据定义,p = X i / Nsd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
NN

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%

2

作为粗略的概括,每次采样人口中一小部分人时,所得到的答案就会与再次采样相同人数(但可能是不同人)时得到的答案不同。

因此,如果您想了解澳大利亚有多少人> = 30岁,并且真实的分数(上帝告诉我们)恰好恰好是0.4,而如果我们问100个人,我们可以期望的平均人数是假设它们> = 30是100 x 0.4 = 40,并且该数字的标准偏差是+/- sqrt(100 * 0.4 * 0.6)= sqrt(24)〜4.9或4.9%(二项式分布)。

由于该平方根位于其中,因此当样本量增加100倍时,标准偏差将减少10倍。因此,总的来说,要将此类测量的不确定性降低10倍,您需要采样的人数是100倍。因此,如果您要求100 x 100 = 10000人,则标准偏差将上升到49,或者下降到0.49%(以百分比为单位)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.