在选举中，我们如何确定候选人将成为赢家？

我昨天住的地方是大选，而电视网络在所有选票都开通之前就开始召集获奖者。

他们在所有帐户上都没事，我真的不感到惊讶。我知道统计数据绝对可行。不过，我很好奇。假设：

我们已经打开出选票; $i$ $j$
我们有候选人在其当前分数 ; $n$ $c_1, c_2, c_3, ... c_n$

我们如何计算领先候选人是获胜者的确定性？

elections

— ne
source

请记住，他们通常可以访问大量的出口轮询数据以及可用于预测结果的其他数据。他们只需要从传入计数中获得足够的确认，以确保它们不会因采样错误而超出标准。当然，这涉及到复杂性，而传入计数通常是一个有偏见的样本，但是退出民意测验对帮助他们解决其中一些问题大有帮助。

— gung-恢复莫妮卡

如果要从字面上理解“确定性”，那么统计信息将（几乎？）永远不会回答“确定性”的问题。但是我们可以高度肯定地给出答案，即答案将是正确的。（换句话说，如果我们获得数据并正确地进行分析，我们可以说诸如“我的答案只会在x％的时间内是错误的。”）

— Emil Friedman 2012年

Answers:

实践中的主要困难不是统计上的不确定性，因为幸运的st幸连胜会给一个候选人更多的选票。一个或多个数量级的主要困难是这是因为打开的选票几乎从来都不是票数公正的样本。如果您忽略此效果，则会出现著名的错误“杜威击败杜鲁门”，该错误发生在一个带有较大偏差的样本上。

实际上，偏爱一个候选人而不是另一个候选人的选民不是按地区分配的，不是他们白天工作还是分配到海外，因此会缺席投票。这些差异不小。

我认为新闻机构现在要做的是将人群分为几组，并使用结果估算每个组的投票方式（包括投票率）。这些可能基于模型和基于先前选举的先前假设，而不仅仅是基于这次选举的数据。这些可能没有考虑到诸如棕榈滩蝴蝶选票之类的怪异之处。

— 道格拉斯·扎尔
source

在澳大利亚，直到大约10到15年前，保守派政党通常在早期计数时就开始强大，而进步派政党则晚些时候卷土重来。电视网络可能知道发生了什么，但是可变性可能导致了更多的戏剧性。当分析家安东尼·格林开始按摊位使用结果时，这一切都变了，这说明了农村地区的小摊位倾向于尽早完成盘点和结果，而且他们倾向于更保守地投票。安东尼著名地称为选举结果，比其他任何人都要早几个小时。

— Bogdanovist 2012年

过去几年的逐个展位结果可用于非常准确地校准总结果的估计值。

— 彼得·埃利斯

@DouglasZare我认为您的意思是当前打开的选票不是随机样本。

— Michael R. Chernick

@Michael Chernick：非随机样本和有偏样本之间有什么区别？en.wikipedia.org/wiki/Sampling_bias似乎将它们用作同义词。

— Douglas Zare 2012年

@DouglasZare我从您的链接中看到，维基百科使用偏差样本作为非随机的同义词。我认为这是一个糟糕的选择。一般偏差是指估计量的期望值不等于参数的真实值。在采样的情况下，非随机采样并不意味着对特定估计值有偏差。它可能导致也可能不会导致偏差。

— Michael R. Chernick 2012年

在调查抽样中，需要比例估计的标准误差。它更多地取决于i而不是j。另外，还要求我随机抽取i个开票。如果p是候选A的真实最终比例，则估计值的方差为

\frac{(1 - \frac{i}{j}) p (1 - p)}{i}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ 被称为有限人口校正因子。为了估计该方差，通常用p的估计值代替公式中的p。标准误差是通过取平方根得出的。在预测获胜者时，民意测验人员可能会使用估算值的正负3个标准误。如果间隔中不包含0.5，则如果0.5低于下限，则候选人A被宣布为获胜者；如果0.5高于上限，则其对手被宣布为获胜者。当然，这只能非常有把握地说明如果0.5超出时间间隔，谁将成为赢家。如果您使用三个标准误差（基于对二项式的正态近似），则置信度为0.99。如果在间隔内0.5，则没有人被宣布为获胜者，而民意调查则等待更多数据累积。

在进行预测时，民意测验人员可以从累积的选票中选择分层的随机样本，以避免潜在的偏见，即如果人们查看所有已计票的选票，都会产生麻烦。查看所有累积的选票的问题在于，某些区域会完全计算其他区域，而这些区域可能无法代表整个人口。

这里的文章很好地介绍了该问题，并提供了许多参考资料。

有人指出，累积投票可以提供有偏差的比例估计，因为尚未报告的选区是倾向于偏爱落后候选人的政党的选区，或者缺席的选票可能倾向于落后的候选人。那些票最后算到了。像哈里斯（Harris）和盖洛普（Gallup）这样的老练民意测验者也不属于此类陷阱。我概述的基于累积选票构建置信区间的简单分析只是使用的一个因素。这些民意测验者掌握了更多的信息。他们的选票是在大选前不久进行的，并且具有最近几年选举中所有选区和缺席选票的投票方式。

因此，如果存在明显的偏见，可能会导致在相反方向进行近距离选举，那么民意测验人员将认识到这一点，并推迟计划赢家。

在美国，缺勤者的选票主要来自海外军方和在校外的大学生。军人可能会比较保守，可能会投票给共和党，而大学生的学生会比较自由主义，可能会投票给民主党。所有这些考虑因素都被考虑在内。

自从那时以来，就没有发生过严重的错误，例如1936年的《文摘》民意调查或芝加哥报纸对1948年的杜威大选的过早让步等重大错误。

— 迈克尔·R·切尼克
source

尽管与调查抽样的隐式类比是恰当的，但是这个问题是否增加了复杂因素？首先是有两个以上候选人的可能性。其次，这是一个顺序决策问题：与通常指定投票规模并根据样本做出决定的民意测验不同，网络每次都有不断增长的样本，必须决定是召集选举还是等待选举。更多信息。您在此处引用的调查应用程序似乎不适用于这种动态情况。为什么网络会使用3个SE？（它的声誉受到威胁。）

— 惨案

@whuber我同意有些并发症可能在实践中没有考虑。为简单起见，我选择了两个候选人案，其中多数人获胜。我认为这是《任择议定书》所考虑的情况。如果有三个或三个以上的候选人以复数方式获胜，将表明“获胜的候选人所占比例要高于其对手。当然，如果您进行的投票不止一次，则应考虑抽样的连续性。我不确定

— Michael R. Chernick 2012年

我之所以选择3 SE，是因为我认为民意测验人员要“非常确定”他们在宣布获胜者之前是对的。因此，我认为3将代替2使用。如果您希望更小的错误风险，则可能会高于3。我使用了标准错误的公式，使OP可以确定确定性水平如何取决于i和j以一种简单的方式。使情况复杂化将使结果更加复杂，并且依存关系I i和j不会被清楚地看到。

— Michael R. Chernick 2012年

（1）至关重要的是要注意这不是民意测验：它是实际的选举（“有大选……”）。（2）提及“

n

$n$ “ 代替

2

$2$ 表示对多候选人选举感兴趣。（3）我遇到另一个严重的麻烦：在一次选举中，“人口”由所有选票组成。在全部开放之前，网络只能估算选票的数量。难道不是很难（如果不是不可能的话）应用有限的人口校正系数吗？

— ub

既然我有几票赞成票，有人可以解释一下理由吗？

— Michael R. Chernick