首先,他给出了结果的可能性。因此,举例来说,他对美国大选的预测目前为克林顿82%,特朗普18%。
现在,即使特朗普获胜,我怎么不知道他应该赢得的不仅仅是18%的时间?
另一个问题是他的概率随时间变化。因此,在7月31日,特朗普和克林顿之间的差距几乎达到了50:50。
我的问题是,鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同,我如何衡量他根据当日可用的信息做出预测的每一天的准确性?
首先,他给出了结果的可能性。因此,举例来说,他对美国大选的预测目前为克林顿82%,特朗普18%。
现在,即使特朗普获胜,我怎么不知道他应该赢得的不仅仅是18%的时间?
另一个问题是他的概率随时间变化。因此,在7月31日,特朗普和克林顿之间的差距几乎达到了50:50。
我的问题是,鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同,我如何衡量他根据当日可用的信息做出预测的每一天的准确性?
Answers:
可以使用评分规则来评估概率预测(或众所周知的密度预测),即将密度预测和观察到的结果映射到所谓分数的函数,如果密度预测可以将期望最小化确实是要预测的真实密度。正确的评分规则是指仅根据真实的未来密度将期望值最小化的评分规则。
从概率天气预报的背景下,从Brier(1950年,每月天气评论)开始,有许多这样的适当评分规则可用。Czado等。(2009,Biometrics)提供了有关离散案例的最新概述。Gneiting&Katzfuss(2014年,《统计及其应用年度评论》)概述了总体概率预测-特别是Gneiting在积极推动制定适当评分规则方面非常活跃。
但是,计分规则在某种程度上很难解释,而且实际上只能帮助比较多个概率预测-分数较低的预测更好。也就是说,根据样本变化,最好有很多要评估的预测,我们将平均它们的分数。
如何包括Silver或其他人的预测的“更新”是个好问题。我们可以使用评分规则在单个时间点比较不同预测的“快照”,甚至可以查看Silver随时间变化的概率预测并计算每个时间点的得分。人们希望分数越接近实际结果(即密度预测越好)。
在Nate Silver的书《信号与噪声》中,他写了以下内容,这可能会为您的问题提供一些见解:
预测中最重要的测试之一-我认为这是最重要的单个测试-被称为校准。在您所说的所有时间中,有40%的机会下雨,实际上多久下一次雨?如果从长远来看,确实确实有40%的时间下雨,那意味着您的预测已得到很好的校准。如果只有20%或60%的时间下雨,那他们就没有了。
因此,这提出了几点。首先,正如您正确指出的那样,您实际上无法通过预测事件的结果来推断单个预测的质量。您能做的最好的就是查看模型在许多预测过程中的表现。
需要考虑的另一件事是Nate Silver提供的预测不是事件本身,而是事件的概率分布。因此,就总统竞选而言,他正在估算克林顿,特朗普或约翰逊赢得竞选的概率分布。因此,在这种情况下,他正在估计多项式分布。
但是他实际上是在更细致的水平上预测比赛。他的预测估计了每个候选人将在每个州获得的选票百分比的概率分布。因此,如果我们考虑3个候选者,则其特征可能是长度为51 * 3的随机向量,并采用区间[0,1]中的值,但要满足一个状态中比例之和等于1的约束。数字51是因为其他州是50个州+ DC(实际上,我认为实际上是少数几个州,因为有些州可以拆分其选举团票),而数字3是由于候选人数量所致。
现在您没有太多数据可用来评估他的预测-他只提供了我所知道的最近3次选举的预测(还有更多?)。因此,我认为没有任何方法可以公平地评估他的模型,除非您实际掌握了模型并且可以使用模拟数据对其进行评估。但是,您仍然可以看到一些有趣的东西。例如,我认为看看他在某个特定时间点(例如,选举后一周)预测各州投票比例的准确性会很有趣。如果您在多个时间点重复此操作,例如一周,一个月,六个月和一年,则可以为他的预测提供一些非常有趣的解释。一个重要的警告:结果与选举中各州之间的相关性很高,因此您不能真正地说您拥有51个州* 3个选举独立的预测实例(即,如果模型低估了一个州的候选人表现,那么它也往往会低估其他州的表现) 。但是也许我还是会这样想,以便您有足够的数据来做有意义的事情。
对于任何单个预测,您都无法做到,除了我们可以说“这个硬币有60%的机会出现抬头的可能性”这一说法是否接近一次抛弃就可以纠正。
但是,您可以根据许多预测来评估他的方法-对于给定的选举,他会做出很多预测,不仅是关于总统大选的整体预测,而且还会涉及与总统选举以及许多其他种族(众议院,参议院,政府选举)有关的许多预测。等等),并且随着时间的推移,他还使用了大致相似的方法。
进行评估的方法有很多(有些相当复杂),但是我们可以看看一些相对简单的方法来进行评估。例如,您可以将获胜概率的预测分为几个区间,例如(50-55%,55-65%,依此类推),然后查看该波段中占预测比例的多大;根据平均值的平均值,有效的50-55%预测比例应该在50-55%之间(加上随机变化的余量*)。
因此,通过这种方法(或其他各种方法),您可以查看结果的分布是否与一次选举或几次选举中的预测一致(如果我没记错的话,我认为他的预测往往比正确的预测正确得多) ,这表明他的标准误平均已被高估了一点)。
*我们必须谨慎对待如何进行评估,因为预测不是独立的。