一个人应该使用什么损失函数来获得高精度或高召回率的二进制分类器?


11

我正尝试制作一个很少出现的物体(在图像中)检测器,计划使用在滑动/调整大小的窗口中应用的CNN二进制分类器。我已经构建了平衡的1:1正负训练和测试集(在这种情况下,这样做是对的吗?),分类器在测试集上的准确性很好。现在,我想控制分类器的召回率/精度,例如,它不会错误地标记过多的多数类事件。

明显的(对我来说)解决方案是使用与现在使用的相同的逻辑损失,但是通过将两种情况之一中的损失乘以某个常数,可以将I型和II型权重的误差乘以不同,这可以调整。这样对吗?

PS第二个想法是,这等同于对一些训练样本进行加权。我认为,只增加一个班级就能达到相同的效果。


你有解决过这个吗?我有一个类似的目标。我想针对精度(类型1)进行优化,而不必关心类型2的错误,因此一直在考虑针对损失函数可以采取的措施。
乔纳森·肖尔

Answers:


6

人工构造一个平衡的训练集是有争议的,实际上是有争议的。如果这样做,您应该凭经验验证它确实比不平衡训练集更好地工作。人为地平衡测试集绝不是一个好主意。测试集应代表没有标签的新数据点。您希望它们不平衡,因此您需要知道您的模型是否可以处理不平衡的测试集。(如果您不希望新记录不平衡,为什么所有现有记录都不平衡?)

关于性能指标,您将始终得到要求的东西。如果精度不是您在不平衡集中最需要的,因为不仅是类,而且分类错误成本也是不平衡的,则不要使用它。如果您使用精度作为度量标准,并且始终选择精度最高的模型来进行所有模型选择和超参数调整,那么您正在优化精度。

我将少数派作为积极派,这是命名他们的常规方式。因此,如下所述,精度和召回率是少数类的精度和召回率。

  • 如果唯一重要的是识别所有少数族裔记录,则可以进行召回。因此,您正在接受更多的误报。
  • 仅优化精度将是一个非常奇怪的想法。您将告诉您的分类器,检测不到少数类不是问题。获得高精度的最简单方法是谨慎声明少数群体。
  • 如果需要精度和召回率,则可以采用F度量。它是精确度和召回率之间的谐和平均值,因此会惩罚两个指标不同的结果。
  • 如果您知道双向的具体错误分类成本(以及正确分类的收益(如果每个类别都不相同)),则可以将所有损失分类为损失函数并对其进行优化。

3

您正在做几个假设。最好从总体上考虑最终目标,然后制定满足该目标的策略。例如,您是否真的需要强制选择分类,并且信号:噪声比是否足够大以支持该分类(很好的例子:声音和图像识别)?还是信噪比低?或者您对趋势感兴趣?对于后者,风险估算适合您。选择是关键,它决定了您选择的预测精度指标。有关所有这些的更多想法,请参见http://www.fharrell.com/2017/01/classification-vs-prediction.htmlhttp://www.fharrell.com/2017/03/damage-caused-by-classification .html

大多数问题都与决策有关,而最佳决策则来自风险估计以及损失/成本/效用函数。

风险(概率)估计方法的最佳方面之一是,它处理灰色区域,在这些区域中进行分类或决策可能会出错,而无需获取更多数据。再有一个事实是,概率估计不需要(甚至不允许)通过人为地操纵样本来“平衡”结果。


1

关于您的问题:重新加权训练样本是否等于将两种情况之一中的损失乘以一个常数:是的。编写逻辑回归损失函数的一种方法是 其中和分别代表正例和负例,而是根据特征构建的逻辑分类器。例如,如果您想对否定实例赋予更大的权重,则可能希望将损失修改为

j=1Jlog{1+exp[f(xj)]}+k=1Klog{1+exp[f(xk)]}
jkf()X
w>1ww=2
Ĵ=1个Ĵ日志{1个+经验值[-FXĴ]}+ķ=1个ķw日志{1个+经验值[FXķ]}
对于某些。加权逻辑回归的软件实现可最大程度地减少此损失函数,但您也可以通过将负实例的加权,并拟合标准logistic回归来得出相同的答案(例如,如果,则创建每个否定实例2个副本并适合)。有关这种方法的更多详细信息,请参见此处。而且,关于发生了什么参数标准误差一般警告这里,但是这可能不会是这样一个问题,如果你只是在做预测。w>1个ww=2

但是,这将不再是最大似然估计-一个统计禁忌
弗兰克哈瑞尔

1
同意,但是我不认为如果逻辑回归中参数的统计推断不是期望的目标(OP提到使用CNN也不基于ML)就没有关系。实际上,最好忽略这种加权方法的大多数/所有推论输出,但是该模型和所得的风险评分仍可以应用于具有理想结果(例如良好的区分/校准)的验证集。
特拉维斯·盖尔克

1
不,您会干扰模型的校准,并且使用上述方法会获得更多嘈杂的参数估计值。存在MLE的原因非常充分。
Frank Harrell

考虑一下非常关注一种方法而不是另一种方法的错误分类的琐碎情况,即一种方向的零损失。损失的最佳模型只能预测关注的类别。尽管这将是一个可怕的模型,但可以实现目标。重要的是要了解目标,不要对理论概念(MLE)产生盲目信任,而无需理解目标。正如TravisGerke所指出的,如果重点是预测而不是建模,那么他的方法将非常有用。这肯定比降低多数派的抽样效果更好。
Statseeker '18 -4-3
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.