为什么对于逻辑回归,P> 0.5临界值不是“最佳”的?


13

前言:我不在乎是否使用截止值的优点,也不在乎应该如何选择截止值。我的问题纯属数学,是出于好奇。

Logistic回归模型对A类与B类的后验条件概率进行建模,并且它拟合后验条件概率相等的超平面。因此,从理论上讲,我知道0.5的分类点将最大程度地减少总误差,而与集合平衡无关,因为它对后验概率建模(假设您始终遇到相同的分类比率)。

在我的实际示例中,使用P> 0.5作为分类截止值时,我获得的准确性非常差(约51%的准确性)。但是,当我查看AUC时,它高于0.99。因此,我查看了一些不同的临界值,发现P> 0.6的准确度为98%(较小类别的准确度为90%,较大类别的准确度为99%)-仅2%的案例被错误分类。

这些类严重不平衡(1:9),这是一个高维问题。但是,我将类平均分配给每个交叉验证集,这样模型拟合和预测之间的类平衡之间就不会有差异。我还尝试使用来自模型拟合和预测的相同数据,并且发生了相同的问题。

我对0.5不能使误差最小化的原因感兴趣,我认为如果通过最小化交叉熵损失来拟合模型,这将是设计使然。

是否有人对为什么会发生有任何反馈?是由于增加了处罚,如果可以的话,有人可以解释发生了什么吗?



Scortchi,关于您认为与临界值有关的哪个问题,您可能更具体一些吗?发布之前或现在都没有看到相关的问题或答案。
felix000 '16

抱歉,我并不是说他们都回答了您的问题,但我认为它们都与建议不要将任何临界值的准确性用作性能指标或至少不是从公用事业计算得出的任意临界值有关功能。
Scortchi-恢复莫妮卡

Answers:


16

您不必从逻辑回归模型中获得预测的类别。可以与预测的概率保持一致。如果你得到的预测类别,你应该不会使用这些信息做比说“这个观察,最好分为这一类”其他任何东西。例如,您不应使用“准确性” /“正确百分比”来选择模型。

说了这些话,很少会成为对观察结果进行分类的最佳标准。为了直观地了解这是如何发生的,假设您有其中有观察结果属于肯定类别。当使用作为截止值时,一个简单的仅截距模型很容易产生假阴性。另一方面,如果您只是将一切都称为正,则将有误报,但正确。 .50N=1009949.50199%

更一般而言,逻辑回归试图将真实的正概率概率作为解释变量的函数进行拟合。它没有试图通过将预测的概率以截止值为中心来最大化准确性。如果您的样本不是阳性,则没有理由将最大化正确百分比。.5050%.50


嗨,谢谢您的解释,但是我没有使用仅拦截模型的示例。使用仅截距模型,您可以将任何示例的值设为0.99,因此,通过采用任何阈值,您将具有99%的精度。
abcdaire

0

我认为可能是由于多种原因:

  1. 您的数据中可能存在非线性,因此权重线性相加可能并不总是导致正确的概率
  2. 变量是好的预测变量和较弱的预测变量的组合,因此得分约为0.5的人口是因为较弱的预测变量或较弱的预测变量的影响较小。当您前进时,您会得到预测力强的人

因此,您有时可能需要使用截止值,以使所需的输出(例如精度,准确性等)最大化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.