什么时候合适的评分规则可以更好地估计分类设置中的泛化?
解决分类问题的一种典型方法是识别一类候选模型,然后使用诸如交叉验证之类的过程执行模型选择。通常,人们会选择精度最高的模型,或者选择一些编码特定问题信息的相关函数,例如。FβFβ\text{F}_\beta 假设最终目标是产生一个准确的分类器(准确度的定义再次取决于问题,则取决于问题),在哪种情况下,最好使用适当的评分规则来进行模型选择,而不是诸如准确性,准确性,召回率之类的不正确内容等等?此外,让我们忽略模型复杂性的问题,并假设我们认为所有模型具有同等可能性。 以前我不会说。从形式上讲,我们知道分类比回归[1],[2]更容易解决,并且我们可以得出前者比后者()更严格的界限。此外,在某些情况下,尝试准确匹配概率可能会导致错误的决策边界或过度拟合。但是,基于此处的对话和社区对此类问题的投票方式,我一直对此观点提出质疑。∗∗* 露芙·德沃罗伊。模式识别的概率论。卷 31. springer,1996年,第6.7节 Kearns,Michael J.和Robert E. Schapire。高效无分布学习概率概念。计算机科学基础,1990年。会议论文集,第31届年度研讨会。IEEE,1990年。 (∗)(∗)(*)这句话可能有点草率。我具体是指给定形式为带标签数据,其中和,它似乎更容易估计比准确估计的条件概率判定边界。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}