什么时候合适的评分规则可以更好地估计分类设置中的泛化？

解决分类问题的一种典型方法是识别一类候选模型，然后使用诸如交叉验证之类的过程执行模型选择。通常，人们会选择精度最高的模型，或者选择一些编码特定问题信息的相关函数，例如。 $\text{F}_\beta$

假设最终目标是产生一个准确的分类器（准确度的定义再次取决于问题，则取决于问题），在哪种情况下，最好使用适当的评分规则来进行模型选择，而不是诸如准确性，准确性，召回率之类的不正确内容等等？此外，让我们忽略模型复杂性的问题，并假设我们认为所有模型具有同等可能性。

以前我不会说。从形式上讲，我们知道分类比回归[1]，[2]更容易解决，并且我们可以得出前者比后者（）更严格的界限。此外，在某些情况下，尝试准确匹配概率可能会导致错误的决策边界或过度拟合。但是，基于此处的对话和社区对此类问题的投票方式，我一直对此观点提出质疑。 $*$

露芙·德沃罗伊。模式识别的概率论。卷 31. springer，1996年，第6.7节
Kearns，Michael J.和Robert E. Schapire。高效无分布学习概率概念。计算机科学基础，1990年。会议论文集，第31届年度研讨会。IEEE，1990年。

$(*)$ 这句话可能有点草率。我具体是指给定形式为带标签数据，其中和，它似乎更容易估计比准确估计的条件概率判定边界。 $S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$ $x_i \in \mathcal{X}$ $y_i \in \{1, \ldots, K\}$

— 中音
source

将此视为两者之间的比较 $t$ -test / Wilcoxon测试和Mood中值测试。中位数检验使用最佳分类（连续变量的中位数高于或低于中位数），这样它只会丢失 $\frac{1}{\pi}$ 样本中的信息。与中位数不同的二分法将丢失更多信息。最多使用不正确的评分规则，例如“正确”分类的比例 $\frac{2}{\pi}$ 或关于 $\frac{2}{3}$ 高效。这将导致选择错误的特征并找到伪造的模型。

— 弗兰克·哈雷尔
source

我想我不明白为什么二分法很重要。最终目标是选择一个分类器

h

$h$ 来自某些假设类

H

$H$ 这样

P_{(x, y) \sim D} (h (x) \neq y)

$P_{(x,y) \sim D}(h(x) \neq y)$ 在给定有限样本的情况下最小

S

$S$ 由根据

D

$D$ 。

— 高音2014年

问题在于分类（与风险预测相反）是不必要的二分法。

— Frank Harrell 2014年

因此，假设目标是针对某些效用函数的贝叶斯最优决策而不是准确匹配概率，那么假设此问题的答案永远不会安全吗？

— 中音2014年

贝叶斯的最佳决策需要经过良好校准的预测风险，因此两者需要联系在一起。最佳决策不使用在管道中较早进行的二分法，而是根据完整信息（例如，

P r o b (Y = 1 | X = x)

$Prob(Y = 1 | X=x)$ 不

P r o b (Y = 1 | X > c)

$Prob(Y=1 | X > c)$ 。

— Frank Harrell 2014年

很好的讨论。在某些情况下，例如使用某些垃圾邮件检测器，您可能会遇到“不确定”的情况。我更关心在诸如医学诊断和预后方面的门槛。

— Frank Harrell 2014年