前言:我不在乎是否使用截止值的优点,也不在乎应该如何选择截止值。我的问题纯属数学,是出于好奇。
Logistic回归模型对A类与B类的后验条件概率进行建模,并且它拟合后验条件概率相等的超平面。因此,从理论上讲,我知道0.5的分类点将最大程度地减少总误差,而与集合平衡无关,因为它对后验概率建模(假设您始终遇到相同的分类比率)。
在我的实际示例中,使用P> 0.5作为分类截止值时,我获得的准确性非常差(约51%的准确性)。但是,当我查看AUC时,它高于0.99。因此,我查看了一些不同的临界值,发现P> 0.6的准确度为98%(较小类别的准确度为90%,较大类别的准确度为99%)-仅2%的案例被错误分类。
这些类严重不平衡(1:9),这是一个高维问题。但是,我将类平均分配给每个交叉验证集,这样模型拟合和预测之间的类平衡之间就不会有差异。我还尝试使用来自模型拟合和预测的相同数据,并且发生了相同的问题。
我对0.5不能使误差最小化的原因感兴趣,我认为如果通过最小化交叉熵损失来拟合模型,这将是设计使然。
是否有人对为什么会发生有任何反馈?是由于增加了处罚,如果可以的话,有人可以解释发生了什么吗?