我昨天住的地方是大选,而电视网络在所有选票都开通之前就开始召集获奖者。
他们在所有帐户上都没事,我真的不感到惊讶。我知道统计数据绝对可行。不过,我很好奇。假设:
- 我们已经打开出Ĵ选票;
- 我们有候选人在其当前分数Ç 1,c ^ 2,Ç 3,。。。c n ;
我们如何计算领先候选人是获胜者的确定性?
我昨天住的地方是大选,而电视网络在所有选票都开通之前就开始召集获奖者。
他们在所有帐户上都没事,我真的不感到惊讶。我知道统计数据绝对可行。不过,我很好奇。假设:
我们如何计算领先候选人是获胜者的确定性?
Answers:
实践中的主要困难不是统计上的不确定性,因为幸运的st幸连胜会给一个候选人更多的选票。一个或多个数量级的主要困难是这是因为打开的选票几乎从来都不是票数公正的样本。如果您忽略此效果,则会出现著名的错误“杜威击败杜鲁门”,该错误发生在一个带有较大偏差的样本上。
实际上,偏爱一个候选人而不是另一个候选人的选民不是按地区分配的,不是他们白天工作还是分配到海外,因此会缺席投票。这些差异不小。
我认为新闻机构现在要做的是将人群分为几组,并使用结果估算每个组的投票方式(包括投票率)。这些可能基于模型和基于先前选举的先前假设,而不仅仅是基于这次选举的数据。这些可能没有考虑到诸如棕榈滩蝴蝶选票之类的怪异之处。
在调查抽样中,需要比例估计的标准误差。它更多地取决于i而不是j。另外,还要求我随机抽取i个开票。如果p是候选A的真实最终比例,则估计值的方差为
被称为有限人口校正因子。为了估计该方差,通常用p的估计值代替公式中的p。标准误差是通过取平方根得出的。在预测获胜者时,民意测验人员可能会使用估算值的正负3个标准误。如果间隔中不包含0.5,则如果0.5低于下限,则候选人A被宣布为获胜者;如果0.5高于上限,则其对手被宣布为获胜者。当然,这只能非常有把握地说明如果0.5超出时间间隔,谁将成为赢家。如果您使用三个标准误差(基于对二项式的正态近似),则置信度为0.99。如果在间隔内0.5,则没有人被宣布为获胜者,而民意调查则等待更多数据累积。
在进行预测时,民意测验人员可以从累积的选票中选择分层的随机样本,以避免潜在的偏见,即如果人们查看所有已计票的选票,都会产生麻烦。查看所有累积的选票的问题在于,某些区域会完全计算其他区域,而这些区域可能无法代表整个人口。
这里的文章很好地介绍了该问题,并提供了许多参考资料。
有人指出,累积投票可以提供有偏差的比例估计,因为尚未报告的选区是倾向于偏爱落后候选人的政党的选区,或者缺席的选票可能倾向于落后的候选人。那些票最后算到了。像哈里斯(Harris)和盖洛普(Gallup)这样的老练民意测验者也不属于此类陷阱。我概述的基于累积选票构建置信区间的简单分析只是使用的一个因素。这些民意测验者掌握了更多的信息。他们的选票是在大选前不久进行的,并且具有最近几年选举中所有选区和缺席选票的投票方式。
因此,如果存在明显的偏见,可能会导致在相反方向进行近距离选举,那么民意测验人员将认识到这一点,并推迟计划赢家。
在美国,缺勤者的选票主要来自海外军方和在校外的大学生。军人可能会比较保守,可能会投票给共和党,而大学生的学生会比较自由主义,可能会投票给民主党。所有这些考虑因素都被考虑在内。
自从那时以来,就没有发生过严重的错误,例如1936年的《文摘》民意调查或芝加哥报纸对1948年的杜威大选的过早让步等重大错误。