为什么政治民意调查的样本量如此之大?


32

当我看新闻时,我注意到盖洛普(Gallup)对总统选举之类的民意调查(我假设是随机的)的样本量远远超过1,000。据我所记得的大学统计数据是,样本数量为30是“非常大的”样本。人们似乎认为,由于收益递减,超过30个样本规模毫无意义。


9
最后,有人在这里谈论大数据皇帝的新装。如果您可以从30个大学统计数据样本中获得所有答案,谁需要6亿个高音扬声器用户?
StasK 2014年

1
StasK,这很有趣。
亚伦·霍尔

最好的评论@StasK
布伦南

Answers:


36

韦恩(Wayne)很好地解决了“ 30”问题(我的经验法则:提到与统计数字有关的数字30可能是错误的)。

为什么经常使用1000附近的数字

甚至在简单比例的情况下,调查中经常使用大约1000-2000的数字(“ 您赞成< what >吗?”。

这样做是为了获得合理准确的比例估计。

如果采用二项式抽样,则当比例为1时,样本比例的标准误差*最大12但是对于大约25%到75%之间的比例,该上限仍然是一个很好的近似值。

*“标准误差” =“标准偏差的分布”

一个共同的目标是将百分比估计为真实百分比的大约以内,大约是95 的时间。这3 称为“ 误差幅度 ”。±3%95%3%

在二项式抽样下的“最坏情况”标准误差下,这导致:

1.96×12(112)/n0.03

0.98×1/n0.03

n0.98/0.03

n1067.11

...或“多于1000”。

因此,如果从您要推断的人群中随机调查1000人,并且有58%的样本支持该建议,则可以合理地确定人口比例在55%到61%之间。

(有时可能会使用误差容限的其他值,例如2.5%。如果将误差容限减半,则样本大小将增加4的倍数。)

在复杂的调查中,需要准确估算某些亚人群的比例(例如,得克萨斯州赞成该提案的黑人大学毕业生的比例),该数字可能足够大,以至于该亚人群的大小为数百人,也许总共需要数以万计的回应。

由于这很快就变得不切实际,因此通常将人口分成多个亚人群(阶层)并分别对每个人群进行抽样。即使这样,您仍然可以进行一些非常大的调查。

人们似乎认为,由于收益递减,超过30个样本规模毫无意义。

这取决于效果的大小和相对变异性。该对方差的影响意味着在某些情况下可能需要一些非常大的样本。n

我在这里回答了一个问题(我认为是工程师提出的),该问题涉及非常大的样本量(如果我没记错的话,大约为一百万),但是他正在寻找很小的影响。

让我们看看在估计样本比例时,样本数量为30的随机样本给我们留下了什么。

想象一下,我们问30个人,他们总体上是否同意国情咨文(强烈同意,同意,不同意,非常不同意)。进一步想象,兴趣在于同意或强烈同意的比例。

要说的受访者中有11人同意,有5人强烈同意,总共16人。

16/30约为53%。我们在人口中所占比例的界限是什么(以95%为间隔)?

如果我们的假设成立,我们可以将人口比例固定在35%至71%之间(大约)。

并不是那么有用。


+1。整个答案很好,但第一行本身值得一票。
马特·克劳斯

1
然后当然可以用30的样本反转计算并计算误差范围...
Calimo 2014年

我认为,您的最后一段是分层抽样的来源。正如其他人所说,从合格选民群体中进行简单的随机抽样实际上并没有在全国范围内进行。
韦恩

@韦恩谢谢; 我回去了,最后加了一点。
Glen_b-恢复莫妮卡2014年

2
+1,我也喜欢您的经验法则的矛盾之处。
詹姆斯·斯坦利

10

特定的经验法则表明,假设数据正态分布(即,看起来像钟形曲线),则30点就足够了,但这充其量只是一个粗略的指导原则。如果这很重要,请检查您的数据!这确实表明,如果您的分析基于这些假设,那么您至少需要30位受访者进行问卷调查,但是还有其他因素。

一个主要因素是“效果大小”。大多数种族趋于相当接近,因此需要相当大的样本才能可靠地检测到这些差异。(如果您有兴趣确定“正确的”样本量,则应研究功效分析)。如果您的伯努利随机变量(有两个结果)大约为50:50,那么您需要进行大约1000次试验才能将标准误降至1.5%。这可能足够准确,可以预测一场比赛的结果(最近四届美国总统大选的平均幅度约为3.2%),与您的观察结果非常吻合。

投票数据通常以不同的方式进行切片和切块:“候选人是否以拥有75岁以上枪支的男人为首?” 管他呢。这需要更大的样本,因为每个受访者只适合这些类别中的几个。

有时,总统选举也与其他调查问题(例如,国会竞选)“捆绑”在一起。由于这些状态因州而异,因此最终会有一些“额外”的轮询数据。


伯努利分布是仅具有两个结果的离散概率分布:选择选项1的概率为,而选择选项2的概率为1 pp1p

贝努利分布的方差为,因此平均值的标准误差为p(1p)。插入p=0.5(选择是平局),将标准误差设置为1.5%(0.015),然后求解。您需要获得1,111科目才能达到1.5%的SEp(1p)np=0.5


4
+1,但是,“ 30点足以假定数据是正态分布的”是不正确的。人们可能会相信这一点,但是CLT要求多少数据才能使采样分布充分收敛到法线,取决于数据分布的性质(请参见此处)。取而代之的是,如果数据已经正常,则30(可能)大约足够,但是SD是根据相同的数据集估算的(参见t分布)。
gung-恢复莫妮卡

@Gung,完全同意,但是我不想走得太远。如果您认为要强调的重点,可以随时进行更多编辑。
Matt Krause 2014年

8

这个问题已经有了一些很好的答案,但是我想回答为什么标准误差是什么,为什么我们用作为最坏的情况,以及标准误差如何随n变化。p=0.5n

假设我们只对一个选民进行了一次民意测验,让我们称他或她的选民1,并问“您愿意为紫党投票吗?” 我们可以将答案编码为1(是)和0(否)。假设“是”的概率为。我们现在有一个二进制随机变量X 1是1的概率为p和0的概率为1 - p。我们说,X 1是具有成功概率一个伯努利变量p,我们可以写X 1Ë ř Ñ Ò ù p pX1p1pX1pX1Bernouilli(p)的期望值或平均值由EX 1= x P X 1 = x )给出,其中我们对X 1的所有可能结果x求和。但只有两个结果,0的概率为1 - p和1的概率为p,所以总和为只是ëX 1= 0 1 - p + 1 p X1E(X1)=xP(X1=x)xX11pp平均为0.3。。停下来想一想。这实际上看起来是完全合理的-如果选民1有30%的机会支持紫党,并且我们将变量编码为1(如果他们说“是”)和0(如果他们说“否”),那么我们将期望 X 1E(X1)=0(1p)+1(p)=pX1

让我们考虑将平方的结果。如果X 1 = 0,X 2 1 = 0,如果X 1 = 1,X 2 1 = 1。因此,实际上无论哪种情况,X 2 1 = X 1。由于它们相同,因此它们必须具有相同的期望值,因此EX 2 1= p。这给了我一种简单的方法来计算Bernouilli变量的方差:我使用V aX1X1=0X12=0X1=1X12=1X12=X1E(X12)=p等的标准偏差是 σ X 1 = Var(X1)=E(X12)E(X1)2=pp2=p(1p)σX1=p(1p)

显然,我想与其他选民交谈-让我们将他们称为2号选民,3号选民,直至选民。让我们假设它们都具有相同的概率p的支持紫党。现在,我们有Ñ伯努利变量,X 1X 2通过对X Ñ,其中每个X Ë ř Ñ Ò ù p 从1到Ñ。它们均具有相同的均值p和方差p npnX1X2XnXiBernoulli(p)inpp(1p)

我想找出样本中有多少人说“是”,然后我可以将所有加起来。我将写成X = n i = 1 X i。如果存在这些期望,我可以通过使用EX + Y = EX + EY 的规则来计算X的平均值或期望值,并将其扩展到EX 1 + X 2 + + XXiX=i=1nXiXE(X+Y)=E(X)+E(Y)。但是我将这些期望中的 n加起来,每个都是 p,所以我总共得到 EX = n p。停下来想一想。如果我对200人进行投票,并且每个人都有30%的机会说他们支持紫党,那么我当然希望0.3 x 200 = 60人说“是”。因此, n p公式看起来正确。不太“明显”的是如何处理差异。E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)npE(X)=npnp

还有,说的规则 但是我仅当我的随机变量彼此独立时才使用它。很好,让我们做一个假设,并采用类似于我看到V之前的逻辑

Var(X1+X2++Xn)=Var(X1)+Var(X2)++Var(Xn)
。如果变量 X是的总和 Ñ独立伯努利试验,成功的概率相同 p,则我们说 X具有二项式分布, X Ñ ø Ñ p 。我们刚刚表明,平均这种二项分布是 ñ p和方差为 ñ pVar(X)=np(1p)Xn pXXBinomial(n,p)npnp(1p)

我们最初的问题是如何从样本中估计。定义我们的估计明智的办法是p = X / ñ。例如,在我们200人的样本中有64人说“是”,我们估计64/200 = 0.32 = 32%的人说他们支持紫党。你可以看到,p是我们的肯定,选民总数的“缩小版” X。这意味着它仍然是一个随机变量,但不再遵循二项式分布。我们可以找到它的均值和方差,因为当我们用一个恒定因子k缩放随机变量时,它遵循以下规则:Ek X pp^=X/np^Xk(因此平均比例因子相同 k), V a r k X = k 2 V a r X 。注意方差如何按 k 2缩放。当您知道通常情况下,方差是以变量计量单位的平方来衡量的时,这是有道理的:在此不太适用,但是如果我们的随机变量的高度为cm,则方差为 c m 2的缩放比例不同-如果长度加倍,则面积加倍。E(kX)=kE(X)kVar(kX)=k2Var(X)k2cm2

这里我们的比例因子是。这给了我们ê p=11n。这很棒!平均而言,我们估计 p正是这“应该”,真正的(或群体)的概率是随机的选民说,他们会投票给紫党。我们说我们的估计量是无偏的。但是,尽管平均而言它是正确的,但有时它会很小,有时会太高。通过查看其差异,我们可以看到它可能有多严重。V- [R p=1E(p^)=1nE(X)=npn=pp^。标准偏差是平方根Var(p^)=1n2Var(X)=np(1p)n2=p(1p)n,因为它使我们了解了估计量的偏差程度(有效的是均方根误差,这是一种计算平均误差的方法,该方法通过在对正负误差进行平均之前对它们进行平方运算来将正负误差均等地视为差),通常称为标准错误。有一个很好的经验法则,即对大多数样本都适用,并且可以使用著名的中心极限定理进行更严格的处理,那就是在大多数情况下(约95%),估计的错误是少于两个标准误差。p(1p)n

因为它出现在分数的分母中,所以较高值(较大的样本)使标准误差较小。这真是个好消息,好像我想要一个小的标准误差时,我只需使样本大小足够大即可。坏消息是n在平方根之内,因此,如果我将样本大小增加四倍,则只能将标准误差减半。很小的标准误差将涉及非常大的,因此昂贵的样本。还有另一个问题:如果我要针对一个特定的标准误差(例如1%),那么我需要知道要在计算中使用p的哪个值。如果我有过去的轮询数据,则可以使用历史值,但是我想为最坏的情况做准备。p的哪个值nnpp最有问题吗?图是有启发性的。

graph of sqrt(p(1-p))

时,将发生最坏情况(最高)标准误差。为了证明我可以使用微积分,但是只要我知道如何“ 完成平方 ” ,某些高中代数就可以解决问题。 p=0.5

p(1p)=pp2=14(p2p+14)=14(p12)2

表达式是方括号,因此将始终返回零或正答案,然后取四分之一。在最坏的情况下(较大的标准误差),将尽可能少地带走。我知道至少可以减去的是零,这将在p 1时发生,所以当p=1时p12=0。这样做的结果是,当我尝试评估对接近50%选票的政党的支持时,我会遇到更大的标准错误,而在估计比现在更受欢迎或更不受欢迎的主张时,我会得到较低的标准错误。实际上,我的图表和方程式的对称性告诉我,无论对紫色党的支持率是30%还是70%,我对紫色党的支持率都会得到相同的标准误差。p=12

因此,我需要调查多少人才能将标准误保持在1%以下?这意味着,在大多数情况下,我的估算将在正确比例的2%之内。我现在知道最坏情况的标准误差是这给了我0.25n=0.5n<0.01,所以n>2500。那可以解释为什么您看到成千上万的民意测验数字。n>50n>2500

实际上,低标准误差不能保证良好的估计。投票中的许多问题是实际问题,而不是理论问题。例如,我假设样本是随机抽样者,每个样本的概率相同,但是在现实生活中进行“随机”抽样很难。您可以尝试使用电话或在线民意调查-但不仅不是所有人都可以使用电话或互联网,而且那些人与其他人的人口统计学(和投票意向)可能会有很大不同。为避免对结果造成偏差,投票公司实际上对各种样本进行了各种复杂的加权,而不是简单的平均X ipXin

To finish, here are some graphs showing how the required sample size - according to my simplistic analysis - is influenced by the desired standard error, and how bad the "worst case" value of p=0.5 is compared to the more amenable proportions. Remember that the curve for p=0.7 would be identical to the one for p=0.3 due to the symmetry of the earlier graph of p(1p)

Graph of required sample sizes for different desired standard errors


log10 scale in the y-axis might help here.
EngrStudent - Reinstate Monica

7

The "at least 30" rule is addressed in another posting on Cross Validated. It's a rule of thumb, at best.

When you think of a sample that's supposed to represent millions of people, you're going to have to have a much larger sample than just 30. Intuitively, 30 people can't even include one person from each state! Then think that you want to represent Republicans, Democrats, and Independents (at least), and for each of those you'll want to represent a couple of different age categories, and for each of those a couple of different income categories.

With only 30 people called, you're going to miss huge swaths of the demographics you need to sample.

EDIT2: [I've removed the paragraph that abaumann and StasK objected to. I'm still not 100% persuaded, but especially StasK's argument I can't disagree with.] If the 30 people are truly selected completely at random from among all eligible voters, the sample would be valid in some sense, but too small to let you distinguish whether the answer to your question was actually true or false (among all eligible voters). StasK explains how bad it would be in his third comment, below.

EDIT: In reply to samplesize999's comment, there is a formal method for determining how large is large enough, called "power analysis", which is also described here. abaumann's comment illustrates how there is a tradeoff between your ability to distinguish differences and the amount of data you need to make a certain amount of improvement. As he illustrates, there's a square root in the calculation, which means the benefit (in terms of increased power) grows more and more slowly, or the cost (in terms of how many more samples you need) grows increasingly rapidly, so you want enough samples, but not more.


2
“样本的全部目的-整个有效性-反映的是总体,而不是随机的。” 那显然是错误的!有效性(从一般意义上来说)完全源于抽样程序的随机性。情况恰恰是因为您对很小的利润感兴趣,所以您需要精确的估算,因此需要大的样本量。
abaumann 2014年

3
@abaumann:据我所知,随机化是没有魔术的:这只是我们创建反映种群总体的样本的最客观方法。这就是为什么我们可能在分层内使用随机化,或使用分层和加权来尝试补偿不太好的随机化的原因。
韦恩

2
样本大小:与“专家”几乎没有关系。例如,美国总统候选人在竞选期间每周和每天进行“跟踪民意调查”,而这些民意调查仅涉及大约200-300人。这些样本数量可在成本和信息之间提供足够的平衡。在另一个极端,某些与健康相关的研究(例如NHANES)招募了成千上万的人,因为需要这些信息来产生可操作的,价值很高的信息,以至于这些研究的巨额成本值得。在这两种情况下,专家都在确定样本量。
ub

2
Technically, the generalization will be valid if the sample is representative of the population. The idea is that having a random sample guarantees the sample will be representative, but that this is harder (not necessarily impossible) to achieve if the sample is not random. FWIW, no poll uses simple random sampling.
gung-恢复莫妮卡

1
@sashkello,有一个中间立场:可以使用分层的随机样本(本质上是您的选择#1),或者随后尝试重新加权/基准设定基准。像呱,我想大多数的大调查,做一些比简单随机样本更复杂
马特·克劳斯

0

已经发布了很多不错的答案。让我提出一个不同的框架,该框架可以产生相同的响应,但会进一步推动直觉。

就像@Glen_b一样,让我们​​假设我们至少需要95%的置信度,即同意某条陈述的真实比例在3%的误差范围内。在特定的人口样本中,真实比例p未知。但是,围绕此成功参数的不确定性p can be characterized with a Beta distribution.

We don't have any prior information about how p is distributed, so we will say that pBeta(α=1,β=1) as an uninformed prior. This is a uniform distribution of p from 0 to 1.

As we get information from respondents from the survey, we get to update our beliefs as to the distribution of p. The posterior distribution of p when we get δy "yes" responses and δn "no" responses is pËŤ一种α=1个+δÿβ=1个+δñ

假设最坏的情况下真实比例为0.5,我们希望找到受访者人数 ñ=δÿ+δñ因此,只有0.025的概率质量低于0.47,而0.025的概率质量高于0.53(以占我们3%误差幅度的95%置信度)。也就是说,在像R这样的编程语言中,我们要找出ñ这样qbeta(0.025, n/2, n/2)得出的值为0.47。

如果您使用 ñ=1067, 你得到:

> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019

这是我们期望的结果。

总而言之,1,067名回答为“是”和“否”的受访者将使我们有95%的信心认为“是”的受访者的真实比例在47%至53%之间。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.