什么时候使用不正确的评分规则?


27

Merkle&Steyvers(2013)写道:

为了正式定义适当的评分规则,令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。FdpF=p

我认为这很好,因为我们希望鼓励预报员生成诚实地反映其真实信念的预报,而又不想给他们不利的动机以其他方式这样做。

在现实世界中,有没有适合使用不正确评分规则的示例?

参考文献
Merkle,EC和Steyvers,M.(2013年)。选择严格正确的评分规则。决策分析,10(4),292-304


1
我认为Merkle&Steyvers(2013)引用的Winkler&Jose “计分规则”(2010)最后一页的第一栏提供了答案。也就是说,如果效用不是分数的仿射变换(可以通过风险规避等来证明是合理的),则期望效用的最大化将与期望得分的最大化相冲突
理查德·哈迪

Answers:


25

当目的实际上是预测而非推理时,使用不正确的评分规则是合适的。当我是要进行预测的预测者时,我并不在乎其他预测者是否在作弊。

正确的评分规则可确保在估算过程中,模型接近真实的数据生成过程(DGP)。这听起来很有希望,因为当我们接近真正的DGP时,在任何损失函数下的预测方面我们也会做得很好。问题是,大多数时候(实际上实际上几乎总是如此),我们的模型搜索空间并不包含真正的DGP。我们最终以我们建议的某些功能形式逼近了真正的DGP。

在这种更现实的环境中,如果我们的预测任务比找出真正DGP的整个密度更容易,那么实际上可能会做得更好。对于分类尤其如此。例如,真正的DGP可能非常复杂,但分类任务可能非常容易。

Yaroslav Bulatov在他的博客中提供了以下示例:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

X0X<0

在此处输入图片说明

与其匹配上面的精确密度,我们提出了下面的粗略模型,该模型与真实的DGP相当远。但是,它可以完美分类。这是通过使用不适当的铰链损耗来发现的。

在此处输入图片说明

另一方面,如果您决定找到具有对数损失的正确DGP(这是正确的),那么您将开始调整某些功能,因为您不知道先验需要的确切功能形式。但是,随着您越来越努力地匹配它,您开始对事物进行错误分类。

在此处输入图片说明

请注意,在两种情况下,我们都使用相同的功能形式。在损失不当的情况下,它退化为一个阶跃函数,进而实现了完美的分类。在适当情况下,它会尽力满足密度的每个区域。

基本上,我们不一定总是需要获得真实的模型才能获得准确的预测。有时,我们并不是真的需要在整个密度域上都做得很好,而只需要在密度的某些部分上做得很好。


13
这是一个令人着迷的例子,确实值得深思。
马修·德鲁里

7

准确性(即正确分类的百分比)是不正确的评分规则,因此从某种意义上讲,人们一直在这样做。

更一般而言,任何将预测强加到预定义类别中的评分规则都是不正确的。分类是这种情况的极端情况(唯一允许的预报是0%和100%),但是天气预报可能也略有不当-我的当地气象站似乎报告有10%或20%的间隔下雨的机会,尽管我可以打赌,基础模型要精确得多。

正确的评分规则还假设预测者是风险中立的。对于实际的人类预报员来说通常不是这种情况,他们通常是逆向风险的,某些应用程序可能会受益于重现该偏差的评分规则。例如,您可能会给P(rain)额外增加一些重量,因为带上雨伞却不需要,比陷在倾盆大雨中要好得多。


3
我不理解你的第三段。我一直在写类似的答案,我们可能想更专注于正确获得高分位数的预测密度,但是我看不到这种损失函数会如何激励我们使用不正确的评分规则。毕竟,我们仍然最有动力预测正确的未来分配。您能详细说明一下吗?
S. Kolassa-恢复莫妮卡

1
如果预报员最大化其预期效用(而不是价值),则正确的评分规则可能实际上并不适用(例如,如果效用不是分数的线性函数)。但是,如果您知道或可以估计效用函数,我想您可以通过应用反函数来提出专门定制的适当计分规则。
马特·克劳斯

3
但是评分规则的正确与否与实用程序无关,仅与预测的和实际的未来分配无关,因此我仍然不理解您的评论的第一句话,也不理解我们为什么要使用不正确的评分规则。但是,您使我想起Ehm等人写一篇论文,该论文出现在JRSS-B中,我在写我中止的答案时略读了一下,但是在我发现对当前问题没有任何帮助的地方-仔细阅读可能会更有帮助。
S. Kolassa-恢复莫妮卡

@StephanKolassa,也许是Winkler&Jose “计分规则”(2010)最后一页的第一栏解释了吗?
理查德·哈迪

评论不作进一步讨论;此对话已转移至聊天
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.