分类概率阈值


49

我有一个关于分类的问题。令f为一个分类器,在给定一些数据D的情况下输出一组概率。通常,人们会说:好吧,如果P(c | D)> 0.5,我们将分配一个类1,否则将分配一个0(将其设为二进制)分类)。

我的问题是,如果我发现,如果我将概率也大于1,即0.2,则分类器的性能会更好。在进行分类时使用此新阈值是否合法?

我将解释在数据发出较小信号的情况下降低分类界限的必要性;但对于分类问题仍然很重要。

我意识到这是一种实现方法,但是如果这不是正确的想法,那将是什么数据转换,它们以类似的方式强调各个特征,因此阈值可以保持在0.5?


8
您已经有了一些很好的答案,所以让我这么说:您的“正常”不是正常的,应该是正常的。我不确定“阈值0.5”在哪里成为标准,并且我知道有些软件会鼓励这种想法,如果不是的话,它是优秀的,但是通常这是一个非常糟糕的做法。
马修·德鲁里

1
@MatthewDrury:当然,除非分数是经过良好校准的相关后验概率,而不犯任何重大错误(后者将负责不同的误分类成本)。
cbeleites支持Monica

Answers:


68

弗兰克·哈雷尔(Frank Harrell)在他的博客中写道:分类与预测,我对此表示完全赞同。

本质上,他的观点是,当您为新样本的每个类别输出概率时,练习的统计组成部分结束。选择一个阈值,将新观察值分类为1 vs. 0不再是统计信息的一部分。它是决策组件的一部分。在这里,您需要模型的概率输出-还需要考虑以下因素:

  • 决定将新观测值视为1类vs. 0的后果是什么?然后,我是否将便宜的营销邮件发送给所有人?还是我会采用副作用大的浸润性癌症治疗方法?
  • 将“ true” 0视为1的结果如何,反之亦然?我会打勾顾客吗?使某人不必要的治疗?
  • 我的“班级”真的离散吗?还是实际上存在一个连续体(例如血压),而临床阈值实际上只是认知捷径?如果是这样,我现在正在“分类”的情况超出阈值多远
  • 还是只有低但为正的概率成为1类实际上意味着“获取更多数据”,“进行另一项测试”?

因此,要回答您的问题:与您的分类的最终用户交谈,并获得上述问题的答案。或向她或他解释您的概率输出,然后让她或他逐步进行下一步。


1
非常感谢您的深刻见解。我将进一步研究问题本身-我敢肯定,我可以通过某种方式将此属性转换为统计学习部分。
sdgaw erzswer

哇,希望我可以在此添加一些内容,但没有得到任何出色的答案!
the_SJC

4
很好的答案:问题就在眼前!但是,我的专业领域是应用程序,无论查找决策阈值是否称为统计信息-完全属于我的专业职责范围...对我而言,它是模型的一部分,就像“预处理”是模型的一部分一样。模型-也是因为所有这些决定都需要在验证过程中涵盖的原因。
cbeleites支持Monica

11

斯蒂芬的答案很好。从根本上说,这取决于您要对分类器执行的操作。

仅添加一些示例。

找到最佳阈值的一种方法是定义目标函数。对于二进制分类,这可以是精度或F1分数。最佳选择取决于最佳选择。对于F1分数,这里有一个有趣的答案:什么是F1最佳阈值?如何计算呢?。但是说“我想使用F1分数”是您实际做出选择的地方。这个选择是否好取决于最终目的。

另一种看到它的方式是面临勘探与开发之间的权衡(斯蒂芬的最后一点):多臂匪徒就是这样一个问题的例子:您必须处理两个相互矛盾的目标,即获取信息和选择最佳匪徒。 。一种贝叶斯策略是随机选择每个土匪,以其为最佳概率。它不是完全分类,而是以类似方式处理输出概率。

如果分类器只是决策算法中的一块砖,那么最佳阈值将取决于算法的最终目的。应针对整个过程的目标功能进行评估和调整。


谢谢您提供另一个很好的答案。如果我理解正确,那么如果我正在处理管道中的最后一步,则直接优化阈值是完全合法的。
sdgaw erzswer

@sdgawerzswer:是的。并且a)确保您对正确问题的答案进行了优化,并且b)确保与该模型的其余部分一起验证了该决策(以及确定阈值)。
cbeleites支持Monica

3

在考虑如何计算概率时可能会有一些价值。如今,分类器使用偏差向量,该偏差向量乘以一个矩阵(线性代数)。只要向量中存在任何非零值,概率(向量与矩阵的乘积)就永远不会为0。

我猜这在没有线性代数的人们的真实世界中引起了混乱。他们感到困扰的是,他们认为应该具有0的项目存在概率得分。换句话说,他们混淆了基于该输入的决策所产生的统计输入。作为人类,我们可以说在大多数“实际”用例中,概率为0.0002234的东西等于0。在更高层次的认知科学讨论中,也许有一个有趣的讨论,关于偏向矢量为什么这样做,或者更确切地说,对于认知应用而言是否有效。


2

没有错误的阈值。您选择的阈值取决于预测的目标,或者取决于您想要的目标,例如精度与召回率(尝试对其进行图形化处理并测量其关联的AUC,以比较所选的不同分类模型)。

我在此给出精度与召回率的示例,因为我现在正在处理自己的问题案例,因此我根据预测时希望模型具有的最小精度(或PPV正预测值)来选择阈值,但是我不太关心负面因素。这样,一旦我训练了模型,我就会采用与所需精度相对应的阈值。与其他分类模型比较时,精度是我的约束,召回率是模型的性能。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.