由于选举是一次性事件,因此不能重复进行实验。那么“希拉里(Hillary)有75%的获胜机会”这一说法在技术上到底意味着什么?我正在寻找一种统计上正确的定义,而不是一种直观或概念上的定义。
我是一位业余统计爱好者,他试图回答讨论中提出的这个问题。我很确定对此有一个很好的客观回应,但我本人无法提出。
由于选举是一次性事件,因此不能重复进行实验。那么“希拉里(Hillary)有75%的获胜机会”这一说法在技术上到底意味着什么?我正在寻找一种统计上正确的定义,而不是一种直观或概念上的定义。
我是一位业余统计爱好者,他试图回答讨论中提出的这个问题。我很确定对此有一个很好的客观回应,但我本人无法提出。
Answers:
到目前为止提供的所有答案都是有帮助的,但是从统计学上讲它们不是很精确,因此我将对此进行介绍。同时,我将给出一个概括性的答案,而不是专注于这次选举。
当我们试图回答诸如克林顿赢得大选等现实世界事件的问题时,要记住的第一件事,是与诸如从an中取出各种颜色的球等虚构的数学问题相反,是回答问题的唯一合理方式,因此不是唯一合理的答案。如果有人只是说“希拉里人有75%的获胜机会”,而没有继续描述他们的选举模型,他们用来进行估计的数据,模型验证的结果,他们的背景假设,是否指的是民众投票或选举投票等,那么他们并没有真正告诉您他们的意思,更不用说为您提供足够的信息来评估他们的预测是否有用。此外,它不是
那么,统计学家可以使用哪些程序来估计克林顿的机会呢?确实,他们如何解决这个问题?在较高的层次上,概率本身有各种概念,其中最重要的两个是常客和贝叶斯。
在贝叶斯视图中,概率表示可信度或可信度(取决于您是否是主观贝叶斯主义,这可能是真实的信念,也可能不是真实的信念)。克林顿获胜的几率是75%,这意味着她将赢得胜利的可信度是75%。反过来,可以在概率的基本定律(如贝叶斯定理)和联合事件的概率不能超过以下任意一个的边际概率的事实的约束范围内自由选择(基于模型或分析师的先前信念)。组件事件)。总结这些法律的一种方法是,如果您押注事件的结果,并根据自己的信誉为赌徒提供赔率,那么没有赌徒可以编写荷兰语书籍对您不利,也就是说,无论赛事如何进行,都将确保您输钱。
无论您是对概率采取常客主义观点还是贝叶斯观点,关于如何分析数据和估算概率仍有许多决定。可能最流行的方法是基于参数回归模型,例如线性回归。在这种情况下,分析人员选择一个参数分布族(即概率测度),该分布由称为参数的数字向量索引。每个结果都是从该分布中得出的独立随机变量,并根据协变量进行转换,这些协变量是分析人员希望用来预测结果的已知值(例如失业率)。分析人员使用数据和模型拟合标准(例如最小二乘法)选择参数值的估算值或最大可能性。使用这些估计,模型可以为协变量的任何给定值生成结果预测(可能只是一个值,可能是一个区间或其他值集)。特别是,它可以预测选举的结果。除参数模型外,还有非参数模型(即,由用无限长的参数向量索引的分布族定义的模型),以及用于确定预测值的方法,这些方法根本不使用生成数据的模型,例如最近邻居分类器和随机森林。
提出预测是一回事,但是您如何知道它们是否有好处呢?毕竟,足够不准确的预测要比没用的糟糕。测试预测是更大的模型验证实践的一部分,也就是说,量化给定模型对于给定目的的质量。验证预测的两种流行方法是交叉验证,然后在拟合任何模型之前将数据分为训练和测试子集。在一定程度上,数据中的选举代表了2016年美国总统大选,我们从验证预测中获得的预测准确性估计值将告诉我们,我们的预测对2016年美国总统大选的准确性如何。
当统计学家想要预测一个二进制结果时(希拉里获胜而不是希拉里获胜),他们想象宇宙正在扔出一个假想的硬币。尾巴,她输了。对于某些统计学家来说,硬币代表了他们对结果的信心程度;对其他人来说,硬币代表了如果我们在相同的情况下一遍又一遍地重新选举,将会发生什么。从哲学上讲,当我们谈到不确定的未来事件时,甚至在将数字拖入其中之前,都很难知道我们的意思。但是我们可以看看数字的来源。
在选举的这一点上,我们有一系列的投票结果。这些形式如下:例如在俄亥俄州,对1000人进行了投票。40%支持特朗普,39%支持希拉里,21%不确定。先前的选举将针对各自的民主党,共和党(和其他追踪政党)候选人进行类似的民意调查。对于前几年,也有成果。您可能知道,例如,在7月份的一次民意调查中,获得40%选票的候选人赢得了先前10场选举中的8场。或者结果可能会说,在10个选举中,有7个是民主党人选了俄亥俄州。您可能知道俄亥俄州与德克萨斯州相比(也许他们从未选择同一位候选人)的情况-您可能拥有有关未定选票如何破裂的信息-并且您可能对当候选人开始“激增”时会发生什么感兴趣的模型。
因此,考虑到以前的选举,您可以说选举硬币已经被抛了好几次了。同一选举不会每四年重新举行一次,但我们可以假装它是这样。从所有这些信息中,民意调查者会建立复杂的模型来预测今年的结果。
希拉里75%的获胜机会与我们“今天”的知识水平有关。就是说,具有她所拥有的“现在”那种民意调查结果的候选人(在拥有该州的州),并且考虑到整个竞选期间她的民意调查趋势,她在4个选举年的3个选举年中赢得了选举。现在,她的获胜概率将会改变,因为该模型将基于八月份的民意调查状态。
从历史上看,美国历史上没有进行过大选,自民意调查开始以来,选举的次数就少得多。我们也不能确定从70年代开始的民意调查趋势仍然适用。所以这有点狡猾。
底线是希拉里应该开始就职演说。
当统计学家这么说时,他们并不是在说胜利的余地或投票的份额。他们正在对选举进行大量模拟,并计算每个候选人获得多少选票。对于许多强大的总统模型,他们对每个州都有预测。有些接近,如果比赛进行多次,则两名候选人都可以获胜。因为预测间隔很多时候与0的获胜余量重叠,所以它不是二进制响应,而是通过仿真可以更准确地告诉我们期望值。
FiveThirtyEight的方法页面可以帮助您了解一些内幕:http : //fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
有一个古怪的广播电台与这个问题非常相关(通常,与选举的细节无关)。在其中,斯蒂芬·杜布纳(Stephen Dubner)采访了美国国防机构的一个项目负责人,以确定预测全球政治事件的最佳方法。
与大多数人相比,这也[有助于]更加了解政治。我想说,这几乎是做好事的必要条件。但是,这还不够,因为有很多人非常聪明和有主见。有很多人非常聪明,他们认为不可能将概率附加到独特事件上。
然后他们讨论不该做什么
如果您问这些类型的问题,大多数人会说:“您怎么可能给似乎独特的历史事件分配概率呢?”似乎没有任何办法可以做到。我们真正能做的最好的事情就是使用模糊的言语,做出模糊的言语预测。我们可以这样说:“嗯,这可能会发生。这可能发生。这可能会发生。”要说可能会发生的事情并不多说。
然后,这一集进入最成功的预测者用来估计这些概率的方法,主张采用非正式的贝叶斯方法
因此,即使对非洲独裁者或该国家一无所知,假设我从未听说过这个独裁者,也从未听说过这个国家,我只是看了基准汇率,然后说:“嗯,看起来约87%。”这是我最初的预感。然后,问题是:“我该怎么办?”那么,我开始学习有关国家和独裁者的知识。并且,如果我知道所讨论的独裁者是91岁并且患有晚期前列腺癌,那么我应该调整我的概率。而且,如果我知道在首都发生暴乱,并且有军事政变的迹象,我应该再次调整概率。但是,从基本利率概率入手是一个至少可以确保您最初会成为真实情况的好方法。
这一集叫做“ 如何在预测未来时更不可怕”,这很有趣。如果您对这种事情感兴趣,我鼓励您检查一下!
2016年的选举确实是一次盛会。但是掷硬币或掷骰子也是如此。
当某人声称自己知道候选人有75%的获胜机会时,他们并没有预测结果。他们声称他们知道模具的形状。
选举的结果不能使这一点无效。但是,如果将他们用来达到75%的模型在许多选举中进行测试,则可以证明其预测价值有限。否则它可能会产生价值。
当然,一旦候选人知道了有价值的预测因素,他们就可以改变他们的行为,并且模型可以变得无关紧要。或者可以将其全部炸毁。看看爱荷华州发生了什么。
当某人说“希拉里有75%的获胜机会”时,他们的意思是,如果您向他们打赌,如果希拉里获胜,一个人将获得25美元,如果希拉里不获胜,另一个人将获得75美元,他们会认为一个公平的选择,没有特别的理由偏爱任何一方。
这些百分比通常来自预测市场。这些总结了所有可用信息,通常胜过预测大多数事件的分析方法。
预测市场为人们提供了下注某个事件是否会发生的机会。收益是由主张双方人民之间的谈判确定的。通常,对命题有特殊知识的人将尝试利用该知识来赚钱,这具有泄露该信息的副作用。
例如,假设有一个关于特定名人是否能活到今年年底的预测市场。公众知道名人的年龄,任何人都可以查询名人在年底之前死亡的基本概率。如果仅此而已,那么您会期望人们愿意以这种可能性大致下注于这一命题的一侧或另一侧。
现在,假设有人知道名人的健康状况不佳,但正在隐瞒。甚至可以说很多人都知道名人的家族有心脏病史,这会降低他们的生存几率。掌握这些信息的人将愿意接受这一主张的一方,从而导致利率在买方推高股票价格而卖方推低股票价格时进行调整。
换句话说,当赔率太低时,希望获利的人就会将其推高。当它们过高时,希望获利的人就会把它们压低。赌注的价格最终反映了每个人对命题赔率的集体智慧,就像所有价格都反映了事物成本和价值的集体智慧一样。
关键问题是如何为唯一事件分配概率。答案是您开发了不再唯一的模型。我认为一个简单的例子是总统去世的概率是多少?您可能将总统视为某个年龄的人,某个年龄和性别的人。等等...每种模型给您不同的预测...先验没有正确的模型..由统计学家决定哪种模型最合适。
鉴于民意调查显示竞争非常激烈,因此75%的选票可能正确也可能不正确。
您在问的是什么意思,而不是他们是如何计算出来的。这意味着(如果我们忽略克林顿和她的主要对手以外的任何人),如果她获胜,您将需要下注3 美元才能获得4 美元的回报。或者,$如果他赢在其他选手1注将返回$ 4
我的答案在两个候选人获胜的实际机会与人们(赌徒或赔率)所期望的机会之间有一个很小的区别。我怀疑当您看到这样的数字(例如75%)时,您会看到赔率制造者数字;当您看到49%至48%的时候,您将看到民意调查结果。
如果他们做得对,那么大约有四分之三的事情发生了,他们说事情发生的可能性为75%。(或更笼统地说,同一个想法适用于所有百分比预测)
取决于我们的哲学观点和我们对模型的信任程度,可能赋予的含义更多,但这种务实的观点是最低的公分母—至少,统计方法尝试过(尽管可能效果而不是直接影响),以根据这种务实的观点做出预测。