为什么/应该为政治(例如盖洛普)进行统计抽样?


14

与人口规模相比,在那里进行的民意测验(例如盖洛普)抽样的人数极少(例如,亿万人口中有千人)。

现在,对我而言,当您有充分理由相信样本可以代表人口(或类似地,代表其他样本)时,对人口进行抽样作为估算人口统计数据的一种方法就很有意义。

例如,采样显然对医学研究有意义,因为我们先验地知道人类都有非常相似的基因组,并且这个因素使他们的身体表现出相似的行为。
注意这不是某种松散的耦合-基因组是一个非常强大的决定性因素

但是,我只是不明白使用低样本量进行政治民意测验的理由。

我可以买到在任何给定社区中大约80-90%的人都为总统投票(由于相似的社会经济/教育背景),但是这似乎不足以证明如此少的样本数是合理的。从字面上看,没有(至少对我而言)没有令人信服的理由,为什么有1000个随机选民的举止应该像其他2亿选民的举止一样。

对我来说,您至少需要(例如)该金额的100倍。为什么?我可以想到很多原因,例如:

  1. 仅加利福尼亚州就有约22,000个专用区。人们在经济和教育背景上成长的差异如此之大,以至于规模为1000的民意调查似乎很小。您如何平均用不到1个人来概括整个区域?

  2. 人们通常无法改变其身体对医学的反应,但是他们可以仅通过思考就改变对政治的看法。我的看法是,与政治打交道时,没有像医学中的DNA那样的强迫因素。在最好的我想像应该有相关的小口袋。

但是无论如何,这样的民意调查似乎仍然有效?或者至少人们似乎认为他们这样做?
但是为什么要这样呢?也许我只是根本不了解采样?有人可以解释吗?
我只是不能认真对待我所看到的任何民意调查,但我觉得我或多或少地独自一人。


4
“抽样显然对医学研究是有意义的,因为我们先验地知道人类都有非常相似的基因组。”我没有医学背景,但是我们的DNA与我们的政治观点是否真的有所不同?如果是这样,为什么研究遗传学如此困难,为什么我们还没有对此有充分的了解?我敢打赌,如果您选择两个随机的人,那么他们更有可能拥有相同的政治观点和DNA。
蒂姆

3
@蒂姆:“我敢打赌,如果你带两个随机的人,那么他们更有可能具有相同的政治观点和DNA。” 您想投注多少?google.com/search?q=dna+similarity+between+humans
user541686 '16

2
但是,进行这种比较时,0.5%的差异不是最重要的吗?另外,我们与蝇类共享60%的基因,所以我想我们可以对人类和蝇类进行采样以进行医学研究吗?相比之下:2008年,奥巴马在美国总统大选中获得了53%的选票。此外,我认为,研究救命,但有潜在危险的药物时,你应该更多的在做研究时约偏好使用A公司生产的VS B,或意见池肥皂采样,然后小心。
蒂姆

2
@ user2338816:“这令人信服,因为它在历史上一直是准确的”,虽然它不像数学,但更像科学。我完全愿意出于科学的理由(因为这就是科学的发展)购买它,而不是纯粹出于数学(基于证明)的理由而购买。
user541686 '16

1
我会挑战(谨慎的)声称民意测验有助于选举的说法。我什至不记得民意调查甚至接近我来自的选举的实际结果。确实有太多因素您无法真正解释-例如,在我们有60%的出席率的情况下,您采样不投票的人和不投票的人的可能性几乎相同。参与调查要比投票省力,有时您甚至会为此获得报酬。有些政党的出席率比其他政党高得多(如共产党)。您需要在任何采样中引用偏差以及“结果”。
a安

Answers:


13

似乎您正在想象一个非常简单的采样模型。

最简单的采样模型称为适当简单随机采样。您选择一个人口子集(例如,通过随机拨打电话号码),并询问回答他们投票方式的人。如果487说克林顿,463说特朗普,其余的给您一些古怪的答案,则民意测验公司将报告49%的选民更喜欢克林顿,而46%的选民更喜欢特朗普。但是,投票公司所做的远远不止此。一个简单的随机样本为每个数据点赋予相同的权重。但是,假设您的样本中偶然包含600名男性和400名女性,这显然不能代表整个人口。如果男人作为一个整体倾向于一种方式,而女人则倾向于另一种方式,那么这将使您的结果产生偏差。但是,由于我们拥有良好的人口统计数据,因此您可以加权*通过计算女性的反应多一些,而男性的反应少一些,从而使加权反应更好地代表总体。轮询组织的权重模型更为复杂,可以使非代表性样本类似于更具代表性的样本。

对抽样响应进行加权的想法是基于相当牢固的统计基础,但是在选择哪些因素对权重进行划分时具有一定的灵活性。大多数民意测验人员都会根据性别,年龄和种族等人口统计因素进行权重调整。鉴于此,您可能会认为还应包括政党标识(民主,共和党等),但事实证明,大多数投票公司并未按自己的意愿来使用它:政党(自我)标识与选民的选择纠缠不清使其用途减少。

许多投票机构也向“可能的选民”报告了他们的结果。在这些调查中,根据实际参加投票的可能性来选择或加权受访者。无疑,该模型也是由数据驱动的,但是精确选择因素可以带来一定的灵活性。例如,在2008年或2016年之前,甚至不包括候选人和选民的种族(或性别)之间的互动,但我怀疑他们现在具有一定的预测能力。

从理论上讲,您可以将各种事物作为权重因素包括:音乐喜好,眼睛颜色等。但是,人口因素是权重因素的常见选择,因为:

  • 从经验上讲,它们与选民行为密切相关。显然,没有铁定的法律“强迫”白人成为精瘦的共和党人,但在过去的五十年中,他们倾向于这样做。
    • 人口值是众所周知的(例如,从人口普查或重要记录中)

但是,民意测验人员也会看到其他所有人都听到的相同新闻,并且可以在必要时调整权重变量。

有时还会引用一些“忽悠因素”来解释民意调查结果。例如,受访者有时不愿给出“社会上不希望的”答案。布拉德利效应Bradley Effect)认为,白人选民有时会低估对白人候选人的反对,以免出现种族主义。它以汤姆·布拉德利(Tom Bradley)的名字命名,汤姆·布拉德利尽管在民意调查中表现出色,但仍以微弱优势输掉了选举。

最后,您完全正确地认为,征求他人意见的行为可以改变它。投票公司试图以中立的方式提出问题。为了避免可能的响应顺序出现问题,应按随机顺序列出候选人的姓名。有时还会对一个问题的多个版本进行相互测试。在推式民意测验中,也可以利用这种效果来进行邪恶的目的,在这种情况下,访问员实际上并不希望收集回应,而是会影响回应。例如,推式民意调查可能会问“即使有人报称他是was亵儿童,您是否会投票给[候选人A]?”。


*您还可以为样本设置明确的目标,例如包括500名男性和500名女性。这称为分层抽样 -将总体分为不同的组,然后对每个组进行随机抽样。实际上,对于民意测验而言,这种情况并不常见,因为您需要将其分为许多详尽的群体(例如,德克萨斯州城市中18至24岁的受过大学教育的人)。


2
我肯定知道他们不是在做简单随机抽样,但我的问题是关于他们是否正在做的仅仅是因为它只是良好的情况,他们的假设是正确的(即合理的,但主观预感)的假设,或是否也有统计学正当的。在这里查看我对其他答案的评论。
user541686 '16

3
我都认为。从统计学上说,对样本进行加权是正确的做法,但是...可以灵活地决定如何选择权重因素。例如,种族,性别和教育都很有用,但事实证明,政党身份识别通常没有用(例如,theguardian.com / commentisfree / 2012 / sep / 27 /…),这可能是因为它与选民的候选人捆绑在一起选择。
马特·克劳斯

1
同样,权重有时包括对受访者投票可能性的估计:年轻人发出很多声音,但并不总是露面;老年人很少参加集会,但在民意测验中可靠地出现。可以根据历史数据进行估算(选民名单有时是公开的),但我可以想象一些地方针对2008年的非洲裔美国人和2016
Matt Krause

谢谢!最好在您的答案中提及“灵活性” :) +1
user541686 '16

10

有一个数学定理叫做“大数定律”。想象一下,您想确定硬币升起的概率。掷硬币的“人群”是无穷的-比美国的3亿多人口大得多。但是根据大数定律,您掷硬币越多,您的估算就越准确。

理想民意测验:在理想民意测验中,民意调查者将从美国人口普查中随机选择姓名,他们将找出这些人的住所,然后去敲门。如果此人说他们正在计划投票,则民意调查员会询问他们在投票谁,并记录其答案。这样的轮询在数学上可以保证正常工作,并且可以容易地计算出任何给定置信度下的测量误差量。

错误的含义如下:假设根据您的民意测验,您有52%的机会赢得了候选真棒McPerfect的机会,而3%的错误和98%的置信度。这意味着您可以有98%的信心相信,支持候选人Awesome McPerfect的真正选民比例在49%至55%之间。

关于误差和置信度的说明对于给定的样本量,您越有信心,则误差将越大。想一想-您有100%的信心支持候选资格Awesome的真实比例在0%和100%之间(可能有大多数错误),并且您有0%的信心支持候选资格Awesome的真实比例恰好是 52.0932840985028390984308% (零错误)。更高的置信度意味着更多的错误,更少的置信度意味着更少的错误。但是,置信度和错误之间的关系不是线性的!(请参阅:https : //en.wikipedia.org/wiki/Confidence_interval

现实世界中的民意调查:由于直升飞机民意调查员到全国各地打乱随机人群的门是很昂贵的(尽管我很乐意看到这种情况的发生;如果您是亿万富翁,并且您看到了这一点,请考虑为此提供资金),现实世界中的民意测验更为复杂。让我们看一下比较常见的策略之一-召集随机选民并询问他们将投票给谁。这是一个很好的策略,但确实存在一些众所周知的缺点:

  1. 人们经常选择不接电话并回应民意调查者(例如我)
  2. 某些受众特征更倾向于使用固定电话(例如年长的选民)
  3. 一些人口统计资料更可能回应民意调查者(例如年长的选民)

由于不同的人群以不同的方式投票,民意测验人员必须尽力控制原始数据(基于决定接听电话的人员)和实际选举结果的差异。例如,如果拿起电话的人中有10%是西班牙裔,而上次选举中有30%的选民是西班牙裔,那么在他们的民意测验中,他们将给西班牙裔选民提供三倍的权重。如果接听电话的人中有50%的年龄超过60岁,但在上次选举中投票的人中只有30%的年龄超过60岁,那么他们将对响应的年龄较大的选民给予更少的重视。这并不完美,但是可以带来一些令人印象深刻的预测成就(内特·西尔弗(Nate Silver)使用统计数据正确预测了2012年大选的50个州中的每个州的结果,

明智的警告是:民意测验者会根据过去的工作情况做出最好的预测。总体而言,现在的工作原理与过去大致相同,或者至少变化速度太慢,以至于最近的过去(他们最关注的是过去)与现在类似。但是,选民偶尔会发生快速变化,这会出错。也许特朗普的选民接听电话的可能性比普通选民要小,而人口统计的权重却无法解释这一点。或者,也许年轻人(压倒性地支持希拉里)甚至更多不太可能接听电话,而不是模型预测的那样,而接听电话的人更可能是共和党人。也许两者的对立面都是正确的-我们不知道。诸如此类的事情是隐藏的变量,不会在通常收集的人口统计数据中显示。

我们知道是否派出民意调查员敲开了随机的门(哎呀,虚构的十亿人正在读这篇文章),从那时起,我们就不必再根据人口统计学对事物进行加权了,但是在那之前,我们的手指没有交叉。


3
我很感激您的回答,但相对于我要提出的问题和背景(相对不确定)(我不确定您是否注意到了,但是我对概率/统计的基础并不完全陌生);我认为这里我的问题的答案没有您的基本答案。例如:对于经典的大数定律的假设是,我们具有分布相同的随机变量...但是在政治背景下,我看不出有合理的理由:为什么要把我和你的投票分配为同样,在所有
user541686 '16

另外,我甚至不能确定大数定律都不能证明你是在努力证明的东西,即使它的假设是满意的。问题在于样本量,大数定律并没有真正解决(至少不是您建议的方式);在这里,我们需要一些方差或收敛速度的概念,而不仅仅是无穷远处均值的收敛。也许您是想调用中心极限定理而不是大数定律?(尽管请参阅我之前的评论,因为这可能没有意义。)
user541686 '16

2
分配不适用于个人选票。个人投票不是随机的。它们适用于整个人口的投票行为。这就像从an上画彩色的球一样-每个球都预定为红色或蓝色,但是您可能会绘制每种颜色,因此您可以根据样本构造分布以绘制某种颜色的球the中的球
J. Antonio Perez

1
让我们看看与人政治之外的东西。某人最喜欢的冰淇淋口味取决于他们的政治观点。这可能取决于他们的朋友的喜好,对他们童年的美好回忆,在冰淇淋店里经历的好坏。也许他们喜欢一种口味,因为他们是在与妻子或丈夫第一次约会时就得到的。也许他们不喜欢这种口味,因为它使他们想起了自己的前任。但是,如果我对美国的人们进行了随机调查,您是否同意我可以判断美国最喜欢的冰淇淋口味?
J. Antonio Perez

1
“随机变量”是民意调查员选择哪个人询问他们的偏好。个人的偏好不是随机的;民意测验所选择的个人是随机的。
J. Antonio Perez

7

首先,这是您要点之外的事情,但值得一提。在医学试验中,您可以让1000人测试一种药物,该药物每年可送给10000名患病的人。您可能会看一下,并认为“正在对10%的人口进行测试”,实际上人口不是10000人,而是所有未来的患者,因此人口规模是无限的。与无限可能使用这种药物的人相比,有1000人的规模并不大,但是这类研究有效。测试10%,1%或0.1%的人口并不重要;重要的是样本的绝对大小,而不是与总体相比。

接下来,您的主要观点是,有太多混杂变量会影响人们的投票。您正在像22000个变量一样对待加利福尼亚的22000个地区,但实际上它们只是少数几个变量(如您提到的收入和教育程度)。您不需要每个地区的代表性样本,您只需要足够的样本来涵盖由于收入,教育程度等因素引起的变化。

kknnσ2nkkσ2n

kn

编辑:

上面的公式假定每个混杂变量同等重要。如果我们要考虑成百上千的事情,这些事情可能会增加结果的方差,那么这种假设是无效的(例如,twitter用户可能会更多地支持一个候选人,但我们知道twitter的使用并不像性别那么重要)。

σ20.9σ20.92σ2n=0σ20.9n=10σ2

n10σ2n0.9


感谢您的回答!关于第一点,我想这是对的,但是我的观点是,人口的大小甚至都没有关系,因为您有一个强迫因子(DNA等)可以使得出的结果非常相似。任何样品。不过,关于第二个问题:我可以买到实际上可能会有一些变量,但是在数学上证明该假设并在以后使用它的唯一方法是首先对大量人员进行实际采样并进行演示,对吗?没有这个结论,结论在统计上似乎不再是严格或合理的。
user541686 '16

通过实验我们已经确定,年龄,性别,收入和其他一些因素是影响人们投票方式的关键因素,我们也只是从常识中知道这一点。没错,可能还有数百个影响投票的其他小因素,理论上它们可能合起来很重要,但我们的常识告诉我们它们并不重要。在这一点上,该模型还没有被严格地证明是正确的,但是谁来测试诸如“金发碧眼的人会让人们投票支持克林顿?戴假发会使人投票支持特朗普吗?”这样的次要因素。

“但是谁来测试像[...]这样的次要因素”,但这就是这里的问题。如果答案是“因为这是最好的,我们实际上可以做到/因为它恰好可以工作/因为它的成本太高/等等”,那么对于“为什么他们不对100,000人进行投票?”这个问题的答案就很好。 ”,但这并不是“如何在统计上合理地容纳1,000人?”的答案。这就是为什么我要在Stats.SE而不是Politics.SE上问这个问题。我不在乎是否有更多的样本不切实际。我的问题是为什么人们认为目前的方法在统计学上是合理的。
user541686 '16

第一对夫妇在最后一个注释语句似乎是一个合理的答案不过,如果你说的那种研究已经大规模进行(〜几十万甚至上百万的人),而是我们假设的基础。如果是这样的话,我认为应该将它们添加到您的答案中,因为它们可以解决我的问题的关键(理想情况下是带有一些引证,尽管考虑到它有点切线,我不能太挑剔,但这不是Politics.SE。 )。
user541686 '16

没错,测试次要因素不切实际,但在数学上是相关的。我已经对答案进行了编辑,以说明为什么我们不关心数百个影响结果的小因素的原因。我相信您可以找到有关主要因素影响的研究。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.