我最近一直在学习针对概率分类器的正确评分规则。该网站上的多个主题强调了准确性是不正确的评分规则，不应将其用于评估概率模型（如逻辑回归）生成的预测的质量。

但是，我阅读的许多学术论文都给出了误分类的损失，以此作为二进制分类设置中（非严格）正确评分规则的一个示例。我能找到的最清晰的解释是在本文的第7页底部。据我所知，使分类错误的损失最小化等于使准确性最大化，并且本文中的方程式很直观。

例如：使用本文的表示法，如果感兴趣类别的真实条件概率（给定某些特征向量x）为η= 0.7，则任何预测q > 0.5的预期损失R（η| q）= 0.7（0）+ 0.3（1）= 0.3，则任何q 0.5都将具有0.7的预期损失。因此，损失函数在q =η= 0.7时将最小化，因此是适当的；从那里到真正条件概率和预测整个范围的泛化似乎很简单。 $\leq$

假设以上计算和陈述正确无误，那么最小值的缺点就很明显，所有高于0.5的预测均具有相同的最小预期损失。我仍然没有理由在诸如log得分，Brier得分等传统方法上使用准确性。但是，在二进制环境中评估概率模型时，说准确性是一个正确的评分规则是正确的吗？错误-是我对分类错误的理解，还是将其等同于准确性？

probability accuracy scoring-rules

— 齐兹瓦
source

TL; DR

准确性是不正确的评分规则。不要使用它。

稍长的版本

实际上，准确性甚至不是评分标准。因此，询问是否（严格）正确是类别错误。我们最多可以说的是，在其他假设下，准确性与不正确，不连续且具有误导性的评分规则是一致的。（请勿使用。）

你的困惑

您的困惑源于以下事实：根据您引用的论文，分类错误损失也不是评分规则。

细节：评分规则与分类评估

让我们修复术语。我们对二进制结果感兴趣，并且我们有一个概率预测。我们知道，但是我们的模型可能知道也可能不知道。 $y\in\{0,1\}$ $\widehat{q} = \widehat{P}(Y=1)\in(0,1)$ $P(Y=1)=\eta>0.5$ $\widehat{q}$

甲评分规则是一个映射，需要一个概率预测和一个结果到损失， $\widehat{q}$ $y$

s : (\hat{q}, y) \mapsto s (\hat{q}, y) .

$s\colon (\widehat{q},y) \mapsto s(\widehat{q},y).$

$s$ 如果通过对期望进行优化，则是正确的。（“ Optimized”通常是“ minimized”，但是有些作者会翻转符号并尝试最大化评分规则。）如果仅通过对其进行优化，则是严格正确的。 $\widehat{q}=\eta$ $s$ $\widehat{q}=\eta$

通常，我们将根据许多预测和相应的结果进行评估，然后取平均值进行估计，以估算此期望值。 $s$ $\widehat{q}_i$ $y_i$

现在，准确度是多少？准确性不以概率预测为依据。它采用分类 $\widehat{y}\in\{0,1\}$ 和结果：

a : (\hat{y}, y) \mapsto a (\hat{y}, y) = {\begin{cases} 1, & \hat{y} = y \\ 0, & \hat{y} \neq y . \end{cases}

$a\colon (\widehat{y},y)\mapsto a(\widehat{y},y) = \begin{cases} 1, & \widehat{y}=y \\ 0, & \widehat{y} \neq y. \end{cases}$

因此，准确性不是评分标准。这是一个分类评估。（这是我刚刚发明的一个术语；不要在文献中寻找它。）

现在，我们当然可以进行概率预测，例如并将其转换为分类。但是要这样做，我们将需要上面提到的其他假设。例如，使用阈值进行分类是很常见的： $\widehat{q}$ $\widehat{y}$ $\theta$

\hat{y} (\hat{q}, θ) := {\begin{cases} 1, & \hat{q} \geq θ \\ 0, & \hat{q} < θ . \end{cases}

$\widehat{y}(\widehat{q},\theta) := \begin{cases} 1, & \widehat{q}\geq \theta \\ 0, & \widehat{q}<\theta. \end{cases}$

一个非常常见的阈值为。请注意，如果我们使用此阈值，然后根据许多预测（如上所述）和相应的结果评估准确性，则按照Buja等人的方法，我们可以准确得出误分类损失。因此，分类错误的损失也不是评分规则，而是分类评估。 $\theta=0.5$ $\widehat{q}_i$ $y_i$

如果我们采用上述分类算法，则可以将分类评估转化为评分规则。关键是我们需要分类器的其他假设。然后，准确性或误分类损失或我们选择的任何其他分类评估可能会更少地取决于概率预测而更多地取决于我们将转化为分类。因此，如果我们真的有兴趣评估那么优化分类评估可能会追赶红鲱鱼。 $\widehat{q}$ $\widehat{q}$ $\widehat{y}=\widehat{y}(\widehat{q},\theta)$ $\widehat{q}$

现在，这些假设下的评分规则有什么不当之处？在目前情况下没有。在隐式下，将在所有可能的最大化准确性，并最大程度地减少分类错误。因此，在这种情况下，我们在其他假设下的得分规则是正确的。 $\widehat{q}=\eta$ $\theta =0.5$ $\widehat{q}\in(0,1)$

请注意，对于准确性或误分类损失而言，重要的只是一个问题：我们是否将所有内容（）分类为多数类？ $\widehat{y}$ 如果这样做，准确性或分类错误的损失将是令人高兴的。如果不是，则不是。关于这个问题的重要一点是，它与的质量之间只有非常微弱的联系。 $\widehat{q}$

因此，我们在其他假设下的评分规则并不严格正确，因为任何都将导致相同的分类评估。我们可能使用标准，认为多数类以并将所有类别归类为多数类，因为。精度很高，但是我们没有动力将到正确的值。 $\widehat{q}\geq\theta$ $\theta=0.5$ $\widehat{q}=0.99$ $\widehat{q}\geq\theta$ $\widehat{q}$ $\eta$

或者，我们可能对误分类的不对称成本进行了广泛的分析，并确定最佳分类概率阈值实际上应为。例如，如果表示您患有某种疾病，则可能会发生这种情况。即使您没有患上疾病（），也可能要更好地治疗您，而不是相反。因此，即使预测的可能性很低（较小），他们因此而受苦。然后，我们可能会有一个可怕的错误模型，该模型认为真正的多数类仅在 $\theta =0.2$ $y=1$ $y=0$ $\widehat{q}$ $\widehat{q}=0.25$ -但是由于分类错误的代价，我们仍然将所有内容归类为这个（假定的）少数派类别，因为这又是。如果这样做，准确性或分类错误的损失会使我们相信我们做的一切正确，即使我们的预测模型甚至无法获得两类中的哪一类是多数。 $\widehat{q}\geq\theta$

因此，准确性或分类错误会误导您。

此外，在结果复杂的情况下，在其他假设下，准确性和分类错误损失是不适当的。弗兰克·哈雷尔（Frank Harrell）在他的博客文章《分类准确性和其他不连续的不正确的准确性评分规则造成的损害》中引用了他的一本书中的一个例子，其中使用准确性或分类错误损失会导致模型指定错误，因为没有通过正确的条件预测对它们进行优化可能性。

准确性和分类错误的另一个问题是，它们根据阈值是不连续的。弗兰克·哈雷尔（Frank Harrell）也谈到了这一点。 $\theta$

有关更多信息，请参见为什么准确性不是评估分类模型的最佳方法？。

底线

不要使用准确性。也不会分类错误。

nitpick：“严格”与“严格”

我们应该谈论“严格”适当的评分规则还是“严格”适当的评分规则？“严格”修改“适当”，而不是“评分规则”。（有“适当的评分规则”和“严格的适当评分规则”，但没有“严格的评分规则”。）因此，“严格的”应该是副词，而不是形容词，而应使用“严格的”。正如在文献中更常见的，例如蒂尔曼·格尼丁（Tilmann Gneiting）的论文。

— 斯蒂芬·科拉萨
source

我的帖子中有很多方面我没有关注（或感觉与我所问的问题无关），但让我们从“您引用的论文的分类错误损失不是评分规则”开始。该公式在论文中非常清楚地给出：L1（1-q）= 1 [q <= 0.5]（请注意格式不正确）。实际上，它是一个阶跃函数，可直接将任何概率预测及其相关结果映射为损失0或1。此外，0.5只是控制阶跃发生位置的参数。我看不到所涉及的“假设”。这怎么不是计分规则？

— Zyzzva '18

阈值为0.5 是假设。通过使用阈值将概率预测映射到分类，然后误分类损失仅是此分类的函数。您可以对任何其他分类均等地计算错误分类损失，例如，如果我们滚动1或2，则将骰子掷骰子并为A类分配一个实例。我确实认为我所写的一切都是相关的）；很抱歉，如果我没有成功。我很乐于讨论任何其他要点。

q

$q$

— 斯蒂芬·科拉萨

关于相关评论，如果它以错误的方式提出，我深表歉意。我试图将问题的范围集中在专门针对正确与不正确，而不是不连续/误导/等方面。我非常熟悉您提供的链接，并且您对分类错误费用或底线的评论没有任何问题。我只是想对“准确性不正确”的说法进行更严格的解释，特别是考虑到本文针对二进制结果的常见用例提出了其他建议。感谢您抽出宝贵的时间与我讨论并分享您的详细想法。

— Zyzzva '18年

经过进一步的思考，我想我对您提出的观点有了更清晰的了解。如果我们考虑与步长为0.6（对应于阈值为0.6的分类）相同的步长函数，则评分规则将不正确，因为对于[n]范围内的n，预期损失将不再由预测q = n最小化0.5，0.6]。一般来说，除0.5以外的每个阈值都不合适，并且正如您所指出的，由于错误分类的不对称成本，通常在实践中我们希望使用其他阈值。

— Zyzzva '18年

我同意准确度显然不是评估概率的坏标准，即使阈值0.5被证明是正确的。我确实在原始帖子的末尾说了很多，但这有助于弄清我所遇到的具体细节-即，调和我误解的一些信息，因为它表明准确度适用于二进制结果（当实际情况只有适用于0.5阈值的非常特殊的情况），而且我看过很多看似黑白的“准确性不正确”的陈述。感谢您的帮助和耐心等待。

— Zyzzva '18年

在二进制分类设置中，准确性是否是不正确的评分规则？

TL; DR

稍长的版本

你的困惑

细节：评分规则与分类评估

底线

nitpick：“严格”与“严格”