是否有可能过度拟合逻辑回归模型?我看了一段视频,说如果我的ROC曲线下的面积大于95%,则很可能过度拟合,但是是否有可能过度拟合logistic回归模型?
是否有可能过度拟合逻辑回归模型?我看了一段视频,说如果我的ROC曲线下的面积大于95%,则很可能过度拟合,但是是否有可能过度拟合logistic回归模型?
Answers:
是的,您可以过度拟合逻辑回归模型。但首先,我想谈谈有关AUC(接收器工作特性曲线下的面积)的要点:AUC从来没有通用的经验法则。
AUC 是指由于AUC在数学上等同于U统计量,因此随机抽样的阳性(或病例)比阴性(或对照)具有更高的标记值的可能性。
AUC 不是标准的预测准确性度量。高度确定性的事件可以具有95%或更高的单个预测AUC(例如在受控机电一体化,机器人技术或光学系统中),某些复杂的多变量逻辑风险预测模型的AUC可以达到64%或更低,例如乳腺癌风险预测,而这些是较高的预测准确性。
一个明智的AUC值,与动力分析,是通过收集研究的背景和目的的知识预先规定先验。医生/工程师描述他们想要的东西,然后统计学家将为您的预测模型确定目标AUC值。然后开始调查。
确实有可能过度拟合逻辑回归模型。除了线性相关性(如果模型矩阵的秩不足)之外,您还可以具有完美的一致性,或者这是拟合值与Y的关系图可以完美地区分案例和控件。在这种情况下,您的参数尚未收敛,而仅位于边界空间上某个可能。但是,有时候,仅靠随机机会,AUC就是1。
向模型添加过多的预测变量会导致另一种类型的偏差,即样本偏差很小。通常,由于比值比和零像元计数的不相容性,逻辑回归模型的对数比值比趋向于偏向因子。推断而言,这是通过使用条件逻辑回归来控制分层分析中的混淆变量和精度变量来处理的。但是,在预测中,您是SooL。当您有((π = Prob(Y = 1 ))时,没有可推广的预测,因为您可以保证已对“数据”而非“趋势”进行了建模那一点。高尺寸(大p » Ñ π (1 - π ))使用机器学习方法可以更好地预测二进制结果。了解线性判别分析,偏最小二乘,最近邻预测,增强和随机森林将是一个很好的起点。
除了logistic回归之外,是否有任何模型无法拟合?
从根本上说,过度拟合的出现是因为您适合的是样本而不是整个样本。您的样本伪像可能看起来像人口的特征,但并非如此,因此过分伤害了人们。
这类似于外部有效性的问题。仅尝试使用样本,您将获得一个模型,该模型在看不见的实际总体上具有最佳性能。
当然,某些模型形式或程序比其他模型或程序更有可能过度拟合,但是没有一种模型能够真正免受过度拟合的影响,不是吗?
即使样本外验证,正则化程序等也只能防止过拟合,但没有灵丹妙药。实际上,如果要根据拟合模型估算对做出真实世界预测的信心,则必须始终假设确实发生了某种程度的过度拟合。
程度可能有所不同,但是即使在保留数据集上验证的模型也很少会产生与在保留数据集上获得的性能相匹配的野生性能。过度拟合是一个很大的原因。
我们用Roc来检查过度拟合的方法是在训练和评估中随机分离数据集,并比较这些组之间的AUC。如果在训练中AUC大很多(也没有经验法则),则可能会过度拟合。