Answers:
正如其他答案正确指出的那样,从模型(例如逻辑回归和朴素贝叶斯)报告的概率是类别概率的估计。如果模型是正确的,则概率确实是正确分类的概率。
但是,非常重要的一点是要理解这可能会产生误导,因为该模型是估算的,因此不是正确的模型。至少有三个问题。
该不确定性仅仅是无所不在的事实的概率只是一个估计值。估计的类别概率的置信区间可以提供一些有关不确定性的信息(类别概率,而不是分类)。
如果估计程序(有意)提供了有偏差的估计,则类概率是错误的。我使用正则化方法(例如套索和ridge)进行逻辑回归时看到了这一点。尽管对正则化进行交叉验证的选择会导致模型具有良好的分类性能,但是在测试用例上,所得的分类概率显然被低估了(太接近0.5)。这不一定是坏事,但要意识到这一点很重要。
给定具有2类的分类器(例如2类线性判别式或逻辑回归分类器),可以将这两个类的判别值应用于softmax函数,以得出该类的后验概率估计:
P1 = exp(d1)/(exp(d1)+ exp(d2))
其中P1是类别1的后验概率估计值,d1和d2分别是类别1和2的判别值。在这种情况下,对于给定类别,估计的后验概率可被视为对该类别的置信度,因为对于给定情况,P1将等于1-P2。