Answers:
尽管这个问题及其第一个答案似乎集中在逻辑回归模型校准的理论问题上,但以下问题:
一个人怎么会破坏逻辑回归的标定...?
对于本页面的未来读者而言,在实际应用程序方面值得关注。我们不应忘记必须明确指定逻辑回归模型,并且此问题对于逻辑回归可能特别麻烦。
首先,如果类隶属度的对数与模型中包含的预测变量不线性相关,则将无法很好地进行校准。哈雷尔(Harrell)关于二进制逻辑回归的第10章将大约20页专门用于“模型拟合评估”,以便人们可以在实践中充分利用@whuber所说的“最大似然估计器的渐近无偏性”。
其次,模型规范是逻辑回归中的一个特殊问题,因为模型固有的遗漏变量偏差可能会使普通线性回归背景下的模型偏差感到惊讶。如该页面所述:
即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。
该页面还提供了有用的解释,说明了为什么会发生这种行为,并对相关的,分析上容易处理的概率模型进行了理论解释。因此,除非您知道已包括所有与班级成员资格有关的预测变量,否则在实践中可能会遇到规格错误和校准不佳的危险。
关于模型规范,很有可能像随机森林这样的基于树的方法不会在整个预测变量值范围内假设线性,并且固有地提供了发现并包括预测变量之间相互作用的可能性,最终会获得更好的结果,校正模型在实践中比没有充分考虑交互作用项或非线性的逻辑回归模型要好。关于遗漏变量偏差,对我来说尚不清楚是否有任何评估类成员资格概率的方法可以充分解决该问题。
逻辑回归是,基本上学习的概率函数的分类方法通过拟合参数在输入空间。如果通过适当的损失函数学习了预测的概率,那么逻辑回归有可能学习二进制事件概率的无偏估计,只要它具有足够的能力(输入特征)。
,则学习过程是一致的,并且当您获得更多数据时,将收敛到最佳模型。因此,限制模型容量(例如,较少的特征)会通过增加最佳学习模型与真实模型之间的距离来阻碍逻辑回归的校准。
在Logistic回归中使用不正确的观察模型将导致未校准的概率。用正态分布对二进制事件进行建模是不合适的,并且不应与逻辑回归结合使用。与正态分布观测模型相对应的损失函数是均方误差。因此,使用MSE损耗肯定会阻碍其校准。