过度拟合逻辑回归模型


28

是否有可能过度拟合逻辑回归模型?我看了一段视频,说如果我的ROC曲线下的面积大于95%,则很可能过度拟合,但是是否有可能过度拟合logistic回归模型?


1
您能否说出哪个视频,或者至少提供更多背景信息?
Glen_b-恢复莫妮卡

2
当然@Glen_b,视频是这样的:链接评论是在40分钟时发生的。有人说那件事:当中华民国的AUC在0.5至0.6之间时,那就太差了。如果介于0.6和0.7之间,则低于平均值。如果介于0.7和0.75之间,则为平均/良好。介于0.75和0.8之间是很好的。如果介于0.8和0.9之间,则为Excelent。如果高于0.9,则表示可疑;如果高于0.95,则表示过拟合。我发现这种解释非常容易理解,但这是对的吗?因为我在寻找某种东西来备份那个想法,但我没有找到。
carlosedubarreto

还有Glen_B,@ AdamO给出的解释似乎并不完全是我在视频中看到的解释,但是也许我误解了Adam的解释。这些Statiscs的内容非常复杂,但是深入了解它确实是一种荣幸。:)
carlosedubarreto

我认为AdamO的解释很好(我赞成),但问题应该是永久性的资源。后来的读者(例如,有类似问题的人)可能希望了解所讲内容。我认为您在评论中的描述为大多数人提供了足够的上下文,其余内容将使用该链接。所以谢谢!您使问题变得更有用了。
Glen_b-恢复莫妮卡

非常感谢@Glen_b,我正在学习如何使用我们拥有的该工具(本论坛)。提出新问题时,我会记住您的提示。
carlosedubarreto

Answers:


35

是的,您可以过度拟合逻辑回归模型。但首先,我想谈谈有关AUC(接收器工作特性曲线下的面积)的要点:AUC从来没有通用的经验法则。

AUC 指由于AUC在数学上等同于U统计量,因此随机抽样的阳性(或病例)比阴性(或对照)具有更高的标记值的可能性。

AUC 不是标准的预测准确性度量。高度确定性的事件可以具有95%或更高的单个预测AUC(例如在受控机电一体化,机器人技术或光学系统中),某些复杂的多变量逻辑风险预测模型的AUC可以达到64%或更低,例如乳腺癌风险预测,而这些是较高的预测准确性。

一个明智的AUC值,与动力分析,是通过收集研究的背景和目的的知识预先规定先验。医生/工程师描述他们想要的东西,然后统计学家将为您的预测模型确定目标AUC值。然后开始调查。

确实有可能过度拟合逻辑回归模型。除了线性相关性(如果模型矩阵的秩不足)之外,您还可以具有完美的一致性,或者这是拟合值与Y的关系图可以完美地区分案例和控件。在这种情况下,您的参数尚未收敛,而仅位于边界空间上某个可能。但是,有时候,仅靠随机机会,AUC就是1。

向模型添加过多的预测变量会导致另一种类型的偏差,即样本偏差很小。通常,由于比值比和零像元计数的不相容性,逻辑回归模型的对数比值比趋向于偏向因子。推断而言,这是通过使用条件逻辑回归来控制分层分析中的混淆变量和精度变量来处理的。但是,在预测中,您是SooL。当您有((π = ProbY = 1 )时,没有可推广的预测,因为您可以保证已对“数据”而非“趋势”进行了建模那一点。高尺寸(大p » Ñ π 1 - π 2βpnπ(1π)π=Prob(Y=1))使用机器学习方法可以更好地预测二进制结果。了解线性判别分析,偏最小二乘,最近邻预测,增强和随机森林将是一个很好的起点。p


当您说,我想您是说y = 1的时间比例?而不是y = 1的次数之和?ÿ
–generic_user

π

您如何确定目标的适当AUC值?
Kevin H. Lin

1
@ KevinH.Lin取决于问题的性质。结合上下文相关知识的知识越多越好。这将是模型评估的潜在疾病或状况的患病率或负担,现有(竞争性)模型的执行情况,成本效益的权衡以及围绕采用新实践和/或建议的政策。没有什么是黑白的,但是像许多其他事情一样,您需要进行有说服力的辩论,以说服和推理支持作为统计学家的AUC值。
AdamO 2014年

1
@ KevinH.Lin我认为任何有效的答案都不会像您想要的那样清晰明了。就像在问,“我应该买什么车?” :)我建议您阅读在您感兴趣的相关研究领域中探索过AUC的文章。我主要从事乳腺癌风险预测模型的研究,并通过Tice,Gail和Barlow等人的工作,发现0.65的AUC对于基于事件的流行率小于1-20的人群预测模型非常有吸引力。每使用具有RR BTN 1.5和3.7的危险因素5000人-年的风险
阿达莫

6

用简单的话来说..过拟合的逻辑回归模型具有较大的方差,意味着决策界线变化很大,而变化幅度较小。考虑以下图像最合适的一种是过拟合逻辑模型,其决策范围较大。刚好适中的时候,它的起伏不定,它具有适度的方差和适度的偏差。左边的是欠拟合的,它具有较高的偏差,但方差很小。还有一件事_过度拟合的回归模型具有太多的功能,而欠拟合的模型则具有很少的功能。功能。 该图显示了欠拟合,正拟合和过拟合的逻辑回归模型。 蓝色颜色标记显示决策边界。


8
请为图像添加参考(实际上是吴安国的课程)。
亚历山大·罗丹

5

即使您适合整个总体(如果总体是有限的),也可以采用任何方法过度拟合。该问题有两种一般解决方案:(1)惩罚最大似然估计(岭回归,弹性网,套索等),以及(2)在贝叶斯模型中使用信息先验。

ÿÿÿÿ


4

除了logistic回归之外,是否有任何模型无法拟合?

从根本上说,过度拟合的出现是因为您适合的是样本而不是整个样本。您的样本伪像可能看起来像人口的特征,但并非如此,因此过分伤害了人们。

这类似于外部有效性的问题。仅尝试使用样本,您将获得一个模型,该模型在看不见的实际总体上具有最佳性能。

当然,某些模型形式或程序比其他模型或程序更有可能过度拟合,但是没有一种模型能够真正免受过度拟合的影响,不是吗?

即使样本外验证,正则化程序等也只能防止过拟合,但没有灵丹妙药。实际上,如果要根据拟合模型估算对做出真实世界预测的信心,则必须始终假设确实发生了某种程度的过度拟合。

程度可能有所不同,但是即使在保留数据集上验证的模型也很少会产生与在保留数据集上获得的性能相匹配的野生性能。过度拟合是一个很大的原因。


0

我们用Roc来检查过度拟合的方法是在训练和评估中随机分离数据集,并比较这些组之间的AUC。如果在训练中AUC大很多(也没有经验法则),则可能会过度拟合。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.