Merkle&Steyvers(2013)写道:
为了正式定义适当的评分规则,令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。
我认为这很好,因为我们希望鼓励预报员生成诚实地反映其真实信念的预报,而又不想给他们不利的动机以其他方式这样做。
在现实世界中,有没有适合使用不正确评分规则的示例?
参考文献
Merkle,EC和Steyvers,M.(2013年)。选择严格正确的评分规则。决策分析,10(4),292-304
Merkle&Steyvers(2013)写道:
为了正式定义适当的评分规则,令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。
我认为这很好,因为我们希望鼓励预报员生成诚实地反映其真实信念的预报,而又不想给他们不利的动机以其他方式这样做。
在现实世界中,有没有适合使用不正确评分规则的示例?
参考文献
Merkle,EC和Steyvers,M.(2013年)。选择严格正确的评分规则。决策分析,10(4),292-304
Answers:
当目的实际上是预测而非推理时,使用不正确的评分规则是合适的。当我是要进行预测的预测者时,我并不在乎其他预测者是否在作弊。
正确的评分规则可确保在估算过程中,模型接近真实的数据生成过程(DGP)。这听起来很有希望,因为当我们接近真正的DGP时,在任何损失函数下的预测方面我们也会做得很好。问题是,大多数时候(实际上实际上几乎总是如此),我们的模型搜索空间并不包含真正的DGP。我们最终以我们建议的某些功能形式逼近了真正的DGP。
在这种更现实的环境中,如果我们的预测任务比找出真正DGP的整个密度更容易,那么实际上可能会做得更好。对于分类尤其如此。例如,真正的DGP可能非常复杂,但分类任务可能非常容易。
Yaroslav Bulatov在他的博客中提供了以下示例:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
与其匹配上面的精确密度,我们提出了下面的粗略模型,该模型与真实的DGP相当远。但是,它可以完美分类。这是通过使用不适当的铰链损耗来发现的。
另一方面,如果您决定找到具有对数损失的正确DGP(这是正确的),那么您将开始调整某些功能,因为您不知道先验需要的确切功能形式。但是,随着您越来越努力地匹配它,您开始对事物进行错误分类。
请注意,在两种情况下,我们都使用相同的功能形式。在损失不当的情况下,它退化为一个阶跃函数,进而实现了完美的分类。在适当情况下,它会尽力满足密度的每个区域。
基本上,我们不一定总是需要获得真实的模型才能获得准确的预测。有时,我们并不是真的需要在整个密度域上都做得很好,而只需要在密度的某些部分上做得很好。
准确性(即正确分类的百分比)是不正确的评分规则,因此从某种意义上讲,人们一直在这样做。
更一般而言,任何将预测强加到预定义类别中的评分规则都是不正确的。分类是这种情况的极端情况(唯一允许的预报是0%和100%),但是天气预报可能也略有不当-我的当地气象站似乎报告有10%或20%的间隔下雨的机会,尽管我可以打赌,基础模型要精确得多。
正确的评分规则还假设预测者是风险中立的。对于实际的人类预报员来说通常不是这种情况,他们通常是逆向风险的,某些应用程序可能会受益于重现该偏差的评分规则。例如,您可能会给P(rain)额外增加一些重量,因为带上雨伞却不需要,比陷在倾盆大雨中要好得多。