什么时候使用不正确的评分规则？

Merkle＆Steyvers（2013）写道：

为了正式定义适当的评分规则，令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。 $f$ $d$ $p$ $f = p$

我认为这很好，因为我们希望鼓励预报员生成诚实地反映其真实信念的预报，而又不想给他们不利的动机以其他方式这样做。

在现实世界中，有没有适合使用不正确评分规则的示例？

参考文献
Merkle，EC和Steyvers，M.（2013年）。选择严格正确的评分规则。决策分析，10（4），292-304

classification forecasting scoring-rules

— user1205901-恢复莫妮卡
source

我认为Merkle＆Steyvers（2013）引用的Winkler＆Jose “计分规则”（2010）最后一页的第一栏提供了答案。也就是说，如果效用不是分数的仿射变换（可以通过风险规避等来证明是合理的），则期望效用的最大化将与期望得分的最大化相冲突

— 理查德·哈迪

Answers:

当目的实际上是预测而非推理时，使用不正确的评分规则是合适的。当我是要进行预测的预测者时，我并不在乎其他预测者是否在作弊。

正确的评分规则可确保在估算过程中，模型接近真实的数据生成过程（DGP）。这听起来很有希望，因为当我们接近真正的DGP时，在任何损失函数下的预测方面我们也会做得很好。问题是，大多数时候（实际上实际上几乎总是如此），我们的模型搜索空间并不包含真正的DGP。我们最终以我们建议的某些功能形式逼近了真正的DGP。

在这种更现实的环境中，如果我们的预测任务比找出真正DGP的整个密度更容易，那么实际上可能会做得更好。对于分类尤其如此。例如，真正的DGP可能非常复杂，但分类任务可能非常容易。

Yaroslav Bulatov在他的博客中提供了以下示例：

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

$x \ge 0$ $x < 0$

与其匹配上面的精确密度，我们提出了下面的粗略模型，该模型与真实的DGP相当远。但是，它可以完美分类。这是通过使用不适当的铰链损耗来发现的。

另一方面，如果您决定找到具有对数损失的正确DGP（这是正确的），那么您将开始调整某些功能，因为您不知道先验需要的确切功能形式。但是，随着您越来越努力地匹配它，您开始对事物进行错误分类。

请注意，在两种情况下，我们都使用相同的功能形式。在损失不当的情况下，它退化为一个阶跃函数，进而实现了完美的分类。在适当情况下，它会尽力满足密度的每个区域。

基本上，我们不一定总是需要获得真实的模型才能获得准确的预测。有时，我们并不是真的需要在整个密度域上都做得很好，而只需要在密度的某些部分上做得很好。

— 卡格达斯·厄兹根奇
source

这是一个令人着迷的例子，确实值得深思。

— 马修·德鲁里

准确性（即正确分类的百分比）是不正确的评分规则，因此从某种意义上讲，人们一直在这样做。

更一般而言，任何将预测强加到预定义类别中的评分规则都是不正确的。分类是这种情况的极端情况（唯一允许的预报是0％和100％），但是天气预报可能也略有不当-我的当地气象站似乎报告有10％或20％的间隔下雨的机会，尽管我可以打赌，基础模型要精确得多。

正确的评分规则还假设预测者是风险中立的。对于实际的人类预报员来说通常不是这种情况，他们通常是逆向风险的，某些应用程序可能会受益于重现该偏差的评分规则。例如，您可能会给P（rain）额外增加一些重量，因为带上雨伞却不需要，比陷在倾盆大雨中要好得多。

— 马特·克劳斯（Matt Krause）
source

我不理解你的第三段。我一直在写类似的答案，我们可能想更专注于正确获得高分位数的预测密度，但是我看不到这种损失函数会如何激励我们使用不正确的评分规则。毕竟，我们仍然最有动力预测正确的未来分配。您能详细说明一下吗？

— S. Kolassa-恢复莫妮卡

如果预报员最大化其预期效用（而不是价值），则正确的评分规则可能实际上并不适用（例如，如果效用不是分数的线性函数）。但是，如果您知道或可以估计效用函数，我想您可以通过应用反函数来提出专门定制的适当计分规则。

— 马特·克劳斯

但是评分规则的正确与否与实用程序无关，仅与预测的和实际的未来分配无关，因此我仍然不理解您的评论的第一句话，也不理解我们为什么要使用不正确的评分规则。但是，您使我想起了Ehm等人写的一篇论文，该论文出现在 JRSS-B中，我在写我中止的答案时略读了一下，但是在我发现对当前问题没有任何帮助的地方-仔细阅读可能会更有帮助。

— S. Kolassa-恢复莫妮卡

@StephanKolassa，也许是Winkler＆Jose “计分规则”（2010）最后一页的第一栏解释了吗？

— 理查德·哈迪

评论不作进一步讨论；此对话已转移至聊天。

— gung-恢复莫妮卡