在适当的评分规则中进行选择


22

有关正确评分规则的大多数资源都提到了许多不同的评分规则,例如对数损失,Brier评分或球形评分。但是,它们之间通常没有太多指导。(图表A:维基百科。)

选择使对数得分最大的模型对应于选择最大似然模型,这似乎是使用对数评分的一个很好的论据。对于Brier或球形评分或其他评分规则是否有类似的理由?为什么有人使用这些评分之一而不是对数评分?


2
术语中有一些提示。“成本功能”来自优化或最优控制系统工程。没有“最好的”。拥有“好”意味着您必须拥有一定程度的善良。善意测量的家庭数量众多。一个简单的例子是:最佳途径是什么?如果您要执行自己的处决-使其长久愉快。如果您要使用Fields金属,请使其最短。系统专业知识可帮助您选择优劣程度。当您拥有善良的衡量标准时,您将找到“最佳”。
EngrStudent-恢复莫妮卡2014年


1
我随意编辑标题以使其更准确/更具信息性。如果我误解了,很抱歉,请随时还原更改。
理查德·哈迪

Answers:


18

为什么有人使用这些评分之一而不是对数评分?

因此,理想情况下,我们总是将拟合模型决策区分开。在贝叶斯方法中,应始终使用边际可能性进行模型评分和选择。然后,您可以使用该模型进行概率预测,损失函数会告诉您如何对这些预测采取行动。

不幸的是,在现实世界中,计算性能通常要求我们将模型选择和决策制定混为一谈,因此使用损失函数来拟合模型。这就是模型选择的主观性所在,因为您必须猜测到底会有多少种错误会给您带来损失。典型的例子是对癌症的诊断:高估某人的癌症可能性不好,但低估则更糟。

顺便说一句,如果您正在寻找有关如何选择计分规则的指南,您可能还希望寻找有关选择损失函数或设计效用函数的指南,因为我认为有关这两个主题的文献很多更庞大。


3
1)您是说Brier评分本质上是“变相的损失函数”-也就是说,即使它伪装成与效用函数无关的评分/比较规则,但实际上仍在使用它是因为人们对特定的类型有特定的偏好模型造成的错误?
Ben Kuhn

2)您是否有任何特定的设置示例,其中有人出于这些原因而可能选择Brier或球形评分而不是对数评分(按我的理解,=边缘可能性)?
Ben Kuhn 2014年

3)为什么将损失/效用函数假设纳入模型而不是拟合边际可能性并在实际决策时使用损失/效用函数会更好?似乎对于理想的学习算法,两者之间应该没有差距。
Ben Kuhn 2014年

3
1)是的 2)不是个人而言,不。评分规则不是在ML我的工作的位“时髦”。周围有一个快速戳学者,似乎他们在一般有点过时。这篇论文看起来对您来说很有趣。3)性能是指“计算性能”,而不是“预测性能”。
安迪·琼斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.