似乎您正在想象一个非常简单的采样模型。
最简单的采样模型称为适当简单随机采样。您选择一个人口子集(例如,通过随机拨打电话号码),并询问回答他们投票方式的人。如果487说克林顿,463说特朗普,其余的给您一些古怪的答案,则民意测验公司将报告49%的选民更喜欢克林顿,而46%的选民更喜欢特朗普。但是,投票公司所做的远远不止此。一个简单的随机样本为每个数据点赋予相同的权重。但是,假设您的样本中偶然包含600名男性和400名女性,这显然不能代表整个人口。如果男人作为一个整体倾向于一种方式,而女人则倾向于另一种方式,那么这将使您的结果产生偏差。但是,由于我们拥有良好的人口统计数据,因此您可以加权*通过计算女性的反应多一些,而男性的反应少一些,从而使加权反应更好地代表总体。轮询组织的权重模型更为复杂,可以使非代表性样本类似于更具代表性的样本。
对抽样响应进行加权的想法是基于相当牢固的统计基础,但是在选择哪些因素对权重进行划分时具有一定的灵活性。大多数民意测验人员都会根据性别,年龄和种族等人口统计因素进行权重调整。鉴于此,您可能会认为还应包括政党标识(民主,共和党等),但事实证明,大多数投票公司并未按自己的意愿来使用它:政党(自我)标识与选民的选择纠缠不清使其用途减少。
许多投票机构也向“可能的选民”报告了他们的结果。在这些调查中,根据实际参加投票的可能性来选择或加权受访者。无疑,该模型也是由数据驱动的,但是精确选择因素可以带来一定的灵活性。例如,在2008年或2016年之前,甚至不包括候选人和选民的种族(或性别)之间的互动,但我怀疑他们现在具有一定的预测能力。
从理论上讲,您可以将各种事物作为权重因素包括:音乐喜好,眼睛颜色等。但是,人口因素是权重因素的常见选择,因为:
- 从经验上讲,它们与选民行为密切相关。显然,没有铁定的法律“强迫”白人成为精瘦的共和党人,但在过去的五十年中,他们倾向于这样做。
- 人口值是众所周知的(例如,从人口普查或重要记录中)
但是,民意测验人员也会看到其他所有人都听到的相同新闻,并且可以在必要时调整权重变量。
有时还会引用一些“忽悠因素”来解释民意调查结果。例如,受访者有时不愿给出“社会上不希望的”答案。布拉德利效应(Bradley Effect)认为,白人选民有时会低估对白人候选人的反对,以免出现种族主义。它以汤姆·布拉德利(Tom Bradley)的名字命名,汤姆·布拉德利尽管在民意调查中表现出色,但仍以微弱优势输掉了选举。
最后,您完全正确地认为,征求他人意见的行为可以改变它。投票公司试图以中立的方式提出问题。为了避免可能的响应顺序出现问题,应按随机顺序列出候选人的姓名。有时还会对一个问题的多个版本进行相互测试。在推式民意测验中,也可以利用这种效果来进行邪恶的目的,在这种情况下,访问员实际上并不希望收集回应,而是会影响回应。例如,推式民意调查可能会问“即使有人报称他是was亵儿童,您是否会投票给[候选人A]?”。
*您还可以为样本设置明确的目标,例如包括500名男性和500名女性。这称为
分层抽样 -将总体分为不同的组,然后对每个组进行随机抽样。实际上,对于民意测验而言,这种情况并不常见,因为您需要将其分为许多详尽的群体(例如,德克萨斯州城市中18至24岁的受过大学教育的人)。