Logistic回归的预测概率可以解释为分类中的置信度吗


12

我们能否将从输出预测分类值和概率(例如,逻辑回归或朴素贝叶斯)的分类器获得的后验概率解释为分配给该预测分类值的某种置信度得分?

Answers:


8

正如其他答案正确指出的那样,从模型(例如逻辑回归和朴素贝叶斯)报告的概率是类别概率的估计。如果模型是正确的,则概率确实是正确分类的概率。

但是,非常重要的一点是要理解这可能会产生误导,因为该模型是估算的,因此不是正确的模型。至少有三个问题。

  • 估计的不确定性。
  • 模型规格不正确。
  • 偏压。

不确定性仅仅是无所不在的事实的概率只是一个估计值。估计的类别概率的置信区间可以提供一些有关不确定性的信息(类别概率,而不是分类)。

如果估计程序(有意)提供了有偏差的估计,则类概率是错误的。我使用正则化方法(例如套索和ridge)进行逻辑回归时看到了这一点。尽管对正则化进行交叉验证的选择会导致模型具有良好的分类性能,但是在测试用例上,所得的分类概率显然被低估了(太接近0.5)。这不一定是坏事,但要意识到这一点很重要。


2

对于测试用例(特定输入),其类别(例如二进制输出的标签1)的预测概率是测试示例属于该类别的机会。在许多这样的测试用例中,属于类别1的比例将趋向于预测概率。置信度 具有置信区间的含义,这是完全不同的。


1

如果分类器以概率预测某个类别,则该数字可用作该分类的置信度的代理。不要与置信区间相混淆。例如,如果分类器P预测两个案例为+1和-1且概率为80%和60%,则可以正确地说+1分类比-1分类更为确定。用p(1-p)度量的方差也是不确定性的良好度量。请注意,基线置信度是50%而不是0。


1

给定具有2类的分类器(例如2类线性判别式或逻辑回归分类器),可以将这两个类的判别值应用于softmax函数,以得出该类的后验概率估计:

P1 = exp(d1)/(exp(d1)+ exp(d2))

其中P1是类别1的后验概率估计值,d1和d2分别是类别1和2的判别值。在这种情况下,对于给定类别,估计的后验概率可被视为对该类别的置信度,因为对于给定情况,P1将等于1-P2。


1
这个答案似乎将“概率”等同于“信心”,而@Yoda的答案(正确)将两者区分开。
ub

@whuber我认为一般而言,信心可以看作是信仰的力量。这样就好像是概率。置信度和置信区间是两个不同的事物。但是,即使对于术语置信区间,置信度也是随机区间的覆盖概率。
Michael R. Chernick

我不同意@Michael的说法,在某种意义上,“信心分数”之类的词几乎可以指任何东西(但出于这个原因,也许不赞成使用它)。但是从什么意义上说,逻辑回归拟合的值是“覆盖概率”?您提议将“信心”用作信念强度是否使它与主观“概率”同义,还是仍保留某些区别?(如果是这样,那又是什么?)
胡言乱语

1
@whuber我想您的发言要比我的言论要深得多。我只是想说,因为我们通常将“信心”一词与信心区间联系在一起,但这并不意味着OP术语信心分数不能用来表示概率(也许就像贝叶斯将概率作为主观水平那样)信念,但不一定)。
Michael R. Chernick

1
@whuber,我确实是在“信念强度”的意义上指的是对班级标签的信心,即,给定班级的后验概率值越大,您对预测班级标签的信心就越大。很高兴删除此答案。
BGreene 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.