为什么对逻辑回归进行了良好的校准，以及如何破坏其校准？

在scikit学习有关概率校准的文档中，他们将逻辑回归与其他方法进行了比较，并指出随机森林的校准程度不如逻辑回归。

为什么逻辑回归得到很好的校准？一个人怎么会破坏逻辑回归的标定（不是一个人愿意-只是作为一种练习）？

regression logistic calibration

— 用户0
source

Answers:

尽管这个问题及其第一个答案似乎集中在逻辑回归模型校准的理论问题上，但以下问题：

一个人怎么会破坏逻辑回归的标定...？

对于本页面的未来读者而言，在实际应用程序方面值得关注。我们不应忘记必须明确指定逻辑回归模型，并且此问题对于逻辑回归可能特别麻烦。

首先，如果类隶属度的对数与模型中包含的预测变量不线性相关，则将无法很好地进行校准。哈雷尔（Harrell）关于二进制逻辑回归的第10章将大约20页专门用于“模型拟合评估”，以便人们可以在实践中充分利用@whuber所说的“最大似然估计器的渐近无偏性”。

其次，模型规范是逻辑回归中的一个特殊问题，因为模型固有的遗漏变量偏差可能会使普通线性回归背景下的模型偏差感到惊讶。如该页面所述：

即使省略的变量与包含的变量不相关，省略的变量也会使包含的变量的系数产生偏差。

该页面还提供了有用的解释，说明了为什么会发生这种行为，并对相关的，分析上容易处理的概率模型进行了理论解释。因此，除非您知道已包括所有与班级成员资格有关的预测变量，否则在实践中可能会遇到规格错误和校准不佳的危险。

关于模型规范，很有可能像随机森林这样的基于树的方法不会在整个预测变量值范围内假设线性，并且固有地提供了发现并包括预测变量之间相互作用的可能性，最终会获得更好的结果，校正模型在实践中比没有充分考虑交互作用项或非线性的逻辑回归模型要好。关于遗漏变量偏差，对我来说尚不清楚是否有任何评估类成员资格概率的方法可以充分解决该问题。

— 教育部
source

逻辑回归是，基本上学习的概率函数的分类方法 $\pi_\theta(x)$ 通过拟合参数在输入空间 $\theta$ 。如果通过适当的损失函数学习了预测的概率，那么逻辑回归有可能学习二进制事件概率的无偏估计，只要它具有足够的能力（输入特征）。

$z \thicksim \text{Ber}(p)$ $p$ $z$ $\mathcal{X}$ $\mathcal{X}$ $y_i$ $x_i$ $y_i \thicksim \text{Ber}(\pi(x_i))$ $\pi_\theta$ $\pi_\theta$ $\pi^*$ ，则学习过程是一致的，并且当您获得更多数据时，将收敛到最佳模型。因此，限制模型容量（例如，较少的特征）会通过增加最佳学习模型与真实模型之间的距离来阻碍逻辑回归的校准。

在Logistic回归中使用不正确的观察模型将导致未校准的概率。用正态分布对二进制事件进行建模是不合适的，并且不应与逻辑回归结合使用。与正态分布观测模型相对应的损失函数是均方误差。因此，使用MSE损耗肯定会阻碍其校准。

— 皮质醇
source

仔细调用logistic回归这个网站上的分类方法！谢谢您的回答-似乎您是在暗示对数丢失目标是进行校准的原因（假设模型足够灵活）？

— 用户0

后续行动-您说校准需要对概率进行无偏估计-因此惩罚会破坏校准？

— user0

«默认情况下，由于LogisticRegression直接优化了对数损失，因此默认情况下会返回经过良好校准的预测» -scikit-learn.org/stable/modules/calibration.html

— cortax，

根据定义，惩罚或正则化是一种偏差注入，通常试图减小估计量的方差。大量的正则化可以主导目标函数的数据部分，并且肯定会破坏校准。

— cortax

关于“优化日志丢失”的scikit-learn报价不是有效的解释，因为这与公正之间没有必然的联系。除非我弄错了，否则问题的正确答案将需要调用通常在逻辑回归过程中使用的最大似然估计器的渐近无偏性。

— ub