TL; DR
准确性是不正确的评分规则。不要使用它。
稍长的版本
实际上,准确性甚至不是评分标准。因此,询问是否(严格)正确是类别错误。我们最多可以说的是,在其他假设下,准确性与不正确,不连续且具有误导性的评分规则是一致的。(请勿使用。)
你的困惑
您的困惑源于以下事实:根据您引用的论文,分类错误损失也不是评分规则。
细节:评分规则与分类评估
让我们修复术语。我们对二进制结果感兴趣,并且我们有一个概率预测。我们知道,但是我们的模型可能知道也可能不知道。y∈{0,1}qˆ=Pˆ(Y=1)∈(0,1)P(Y=1)=η>0.5qˆ
甲评分规则是一个映射,需要一个概率预测和一个结果到损失,qˆy
s:(qˆ,y)↦s(qˆ,y).
s如果通过对期望进行优化,则是正确的。(“ Optimized”通常是“ minimized”,但是有些作者会翻转符号并尝试最大化评分规则。)如果仅通过对其进行优化,则是严格正确的。qˆ=ηsqˆ=η
通常,我们将根据许多预测和相应的结果进行评估,然后取平均值进行估计,以估算此期望值。sqˆiyi
现在,准确度是多少?准确性不以概率预测为依据。它采用分类yˆ∈{0,1}和结果:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
因此,准确性不是评分标准。这是一个分类评估。(这是我刚刚发明的一个术语;不要在文献中寻找它。)
现在,我们当然可以进行概率预测,例如并将其转换为分类。但是要这样做,我们将需要上面提到的其他假设。例如,使用阈值进行分类是很常见的:qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
一个非常常见的阈值为。请注意,如果我们使用此阈值,然后根据许多预测(如上所述)和相应的结果评估准确性,则按照Buja等人的方法,我们可以准确得出误分类损失。因此,分类错误的损失也不是评分规则,而是分类评估。θ=0.5qˆiyi
如果我们采用上述分类算法,则可以将分类评估转化为评分规则。关键是我们需要分类器的其他假设。然后,准确性或误分类损失或我们选择的任何其他分类评估可能会更少地取决于概率预测而更多地取决于我们将转化为分类。因此,如果我们真的有兴趣评估那么优化分类评估可能会追赶红鲱鱼。qˆqˆyˆ=yˆ(qˆ,θ)qˆ
现在,这些假设下的评分规则有什么不当之处?在目前情况下没有。在隐式下,将在所有可能的最大化准确性,并最大程度地减少分类错误。因此,在这种情况下,我们在其他假设下的得分规则是正确的。qˆ=ηθ=0.5qˆ∈(0,1)
请注意,对于准确性或误分类损失而言,重要的只是一个问题:我们是否将所有内容()分类为多数类?yˆ如果这样做,准确性或分类错误的损失将是令人高兴的。如果不是,则不是。关于这个问题的重要一点是,它与的质量之间只有非常微弱的联系。qˆ
因此,我们在其他假设下的评分规则并不严格正确,因为任何 都将导致相同的分类评估。我们可能使用标准,认为多数类以并将所有类别归类为多数类,因为。精度很高,但是我们没有动力将到正确的值。qˆ≥θθ=0.5qˆ=0.99qˆ≥θqˆη
或者,我们可能对误分类的不对称成本进行了广泛的分析,并确定最佳分类概率阈值实际上应为。例如,如果表示您患有某种疾病,则可能会发生这种情况。即使您没有患上疾病(),也可能要更好地治疗您,而不是相反。因此,即使预测的可能性很低(较小),他们因此而受苦。然后,我们可能会有一个可怕的错误模型,该模型认为真正的多数类仅在θ=0.2y=1y=0qˆqˆ=0.25-但是由于分类错误的代价,我们仍然将所有内容归类为这个(假定的)少数派类别,因为这又是。如果这样做,准确性或分类错误的损失会使我们相信我们做的一切正确,即使我们的预测模型甚至无法获得两类中的哪一类是多数。qˆ≥θ
因此,准确性或分类错误会误导您。
此外,在结果复杂的情况下,在其他假设下,准确性和分类错误损失是不适当的。弗兰克·哈雷尔(Frank Harrell)在他的博客文章《分类准确性和其他不连续的不正确的准确性评分规则造成的损害》中引用了他的一本书中的一个例子,其中使用准确性或分类错误损失会导致模型指定错误,因为没有通过正确的条件预测对它们进行优化可能性。
准确性和分类错误的另一个问题是,它们根据阈值是不连续的。弗兰克·哈雷尔(Frank Harrell)也谈到了这一点。θ
有关更多信息,请参见为什么准确性不是评估分类模型的最佳方法?。
底线
不要使用准确性。也不会分类错误。
nitpick:“严格”与“严格”
我们应该谈论“严格”适当的评分规则还是“严格”适当的评分规则?“严格”修改“适当”,而不是“评分规则”。(有“适当的评分规则”和“严格的适当评分规则”,但没有“严格的评分规则”。)因此,“严格的”应该是副词,而不是形容词,而应使用“严格的”。正如在文献中更常见的,例如蒂尔曼·格尼丁(Tilmann Gneiting)的论文。