我们如何判断Nate Silver的预测的准确性？

首先，他给出了结果的可能性。因此，举例来说，他对美国大选的预测目前为克林顿82％，特朗普18％。

现在，即使特朗普获胜，我怎么不知道他应该赢得的不仅仅是18％的时间？

另一个问题是他的概率随时间变化。因此，在7月31日，特朗普和克林顿之间的差距几乎达到了50:50。

我的问题是，鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同，我如何衡量他根据当日可用的信息做出预测的每一天的准确性？

— 恐龙汤
source

我怀疑我们不能。一个人需要一个进行此类评估的黄金标准，而我们所拥有的最好的就是以前选举中的观察结果，这些观察结果很难比较（因为每次选举都将包括其他抽样方法和选民行为）。但是我不是选举调查方面的专家，所以我将其留为评论而不是回答:)

— Tal Galili

@TalGalili：我们可以使用评分规则至少说些什么-例如，例如，我们可以说一些我们在回归中估计的不可观察参数。

— S. Kolassa-恢复莫妮卡

这可能是一个“计分规则”，但是，对于n个事件，将其发生这些事件的概率乘以n，然后取第n个根即可得出平均预测率（我们假设他从未做出0％的预测）。您可以将每个每日概率视为一个单独的预测。

— barrycarter '16

为什么概率不能随时间变化？在体育比赛中，只要进球或本垒打，赔率都不会改变吗？

— Rodrigo de Azevedo

Silver的模型不仅提供了概率估计，而且还提供了估计的胜利幅度，这是从50个州中的每个州的获胜概率和胜利幅度得出的。因此，它给出了50种不同测量值的点估计和误差容限（尽管它们之间有些相关性（可能很高）），而不仅仅是预测单个二进制结果。

— 米卡

Answers:

可以使用评分规则来评估概率预测（或众所周知的密度预测），即将密度预测和观察到的结果映射到所谓分数的函数，如果密度预测可以将期望最小化确实是要预测的真实密度。正确的评分规则是指仅根据真实的未来密度将期望值最小化的评分规则。

从概率天气预报的背景下，从Brier（1950年，每月天气评论）开始，有许多这样的适当评分规则可用。Czado等。（2009，Biometrics）提供了有关离散案例的最新概述。Gneiting＆Katzfuss（2014年，《统计及其应用年度评论》）概述了总体概率预测-特别是Gneiting在积极推动制定适当评分规则方面非常活跃。

但是，计分规则在某种程度上很难解释，而且实际上只能帮助比较多个概率预测-分数较低的预测更好。也就是说，根据样本变化，最好有很多要评估的预测，我们将平均它们的分数。

如何包括Silver或其他人的预测的“更新”是个好问题。我们可以使用评分规则在单个时间点比较不同预测的“快照”，甚至可以查看Silver随时间变化的概率预测并计算每个时间点的得分。人们希望分数越接近实际结果（即密度预测越好）。

— S. Kolassa-恢复莫妮卡
source

另一种说法是：不能单独评估单个事件的单个预测概率，但是可以（通过得分函数）评估预测者。

— kjetil b halvorsen

对于“期望最小化”，我认为关键问题是对什么合奏的期望？我们是否接受Nate Silver的所有预测？只有那些超过总统选举的人？我不知道这里是否有一个答案。为了比较不同的预测者，对任何常见事件集的预测都是合理的。

— GeoMatt22 '16

@ GeoMatt22-他在其他选举中具有相当类似的方法，因此汇总所有选举预测可能是有效的

— DVK

在Nate Silver的书《信号与噪声》中，他写了以下内容，这可能会为您的问题提供一些见解：

预测中最重要的测试之一-我认为这是最重要的单个测试-被称为校准。在您所说的所有时间中，有40％的机会下雨，实际上多久下一次雨？如果从长远来看，确实确实有40％的时间下雨，那意味着您的预测已得到很好的校准。如果只有20％或60％的时间下雨，那他们就没有了。

因此，这提出了几点。首先，正如您正确指出的那样，您实际上无法通过预测事件的结果来推断单个预测的质量。您能做的最好的就是查看模型在许多预测过程中的表现。

需要考虑的另一件事是Nate Silver提供的预测不是事件本身，而是事件的概率分布。因此，就总统竞选而言，他正在估算克林顿，特朗普或约翰逊赢得竞选的概率分布。因此，在这种情况下，他正在估计多项式分布。

但是他实际上是在更细致的水平上预测比赛。他的预测估计了每个候选人将在每个州获得的选票百分比的概率分布。因此，如果我们考虑3个候选者，则其特征可能是长度为51 * 3的随机向量，并采用区间[0，1]中的值，但要满足一个状态中比例之和等于1的约束。数字51是因为其他州是50个州+ DC（实际上，我认为实际上是少数几个州，因为有些州可以拆分其选举团票），而数字3是由于候选人数量所致。

现在您没有太多数据可用来评估他的预测-他只提供了我所知道的最近3次选举的预测（还有更多？）。因此，我认为没有任何方法可以公平地评估他的模型，除非您实际掌握了模型并且可以使用模拟数据对其进行评估。但是，您仍然可以看到一些有趣的东西。例如，我认为看看他在某个特定时间点（例如，选举后一周）预测各州投票比例的准确性会很有趣。如果您在多个时间点重复此操作，例如一周，一个月，六个月和一年，则可以为他的预测提供一些非常有趣的解释。一个重要的警告：结果与选举中各州之间的相关性很高，因此您不能真正地说您拥有51个州* 3个选举独立的预测实例（即，如果模型低估了一个州的候选人表现，那么它也往往会低估其他州的表现）。但是也许我还是会这样想，以便您有足够的数据来做有意义的事情。

— 德普里奇
source

对于任何单个预测，您都无法做到，除了我们可以说“这个硬币有60％的机会出现抬头的可能性”这一说法是否接近一次抛弃就可以纠正。

但是，您可以根据许多预测来评估他的方法-对于给定的选举，他会做出很多预测，不仅是关于总统大选的整体预测，而且还会涉及与总统选举以及许多其他种族（众议院，参议院，政府选举）有关的许多预测。等等），并且随着时间的推移，他还使用了大致相似的方法。

进行评估的方法有很多（有些相当复杂），但是我们可以看看一些相对简单的方法来进行评估。例如，您可以将获胜概率的预测分为几个区间，例如（50-55％，55-65％，依此类推），然后查看该波段中占预测比例的多大；根据平均值的平均值，有效的50-55％预测比例应该在50-55％之间（加上随机变化的余量*）。

因此，通过这种方法（或其他各种方法），您可以查看结果的分布是否与一次选举或几次选举中的预测一致（如果我没记错的话，我认为他的预测往往比正确的预测正确得多），这表明他的标准误平均已被高估了一点）。

*我们必须谨慎对待如何进行评估，因为预测不是独立的。

— Glen_b-恢复莫妮卡
source