如何选择罕见事件的Logistic回归的截止概率


11

我有100,000个观察值(9个虚拟指标变量),具有1000个正值。Logistic回归在这种情况下应该可以正常工作,但临界概率使我感到困惑。

在普通文献中,我们选择50%截止值来预测1和0。我无法执行此操作,因为我的模型给出的最大值约为1%。因此,阈值可以在0.007或附近。

我确实了解ROC曲线以及曲线下的面积如何帮助我在同一数据集的两个LR模型之间进行选择。但是,ROC并不能帮助我选择最佳截断概率,该概率可以用来对样本外数据进行模型测试。

我是否应该简单地使用最小化阈值的截止值misclassification rate?(http://www2.sas.com/proceedings/sugi31/210-31.pdf

添加->对于如此低的事件发生率,我的错误分类率受到大量误报的影响。虽然总体宇宙的大小也很大,但总体上看来该比率很高,但是我的模型不应有那么多的误报(因为它是投资回报模型)。5/10系数很重要。


3
两种错误分类的相对成本以及它们的概率决定了临界值。如果您只想验证概率模型,请在应用于测试集时计算其AUC或Brier分数。
Scortchi-恢复莫妮卡

这可能是一个很好的答案:stats.stackexchange.com/a/25398/5597
Tae-Sung Shin

这里这里还有相关的答案。
Scortchi-恢复莫妮卡

@ Tae-SungShin感谢您的链接。这是有帮助的。我想我的问题还没有确切答案。我的模型遭受大量误报。
Maddy

@Scortchi谢谢。如果我要比较两个不同的逻辑回归模型(带有额外的预测变量),则使用AUC可能会很有用,但是我不确定它对我的情况有什么帮助。它为我提供了模型的总成功概率,但并没有帮助我选择临界值。
马蒂

Answers:


5

我不同意50%的界线本质上是有效的或得到文献的支持。只有这样的情况才是合理的,这是在病例对照设计中,结果的发生率恰好是50%,但即使这样,选择也要受一些条件的影响。我认为选择截止值的主要原理是诊断测试所需的操作特性。

可以选择截止值以获得期望的灵敏度或特异性。有关此示例,请查阅医疗设备文献。灵敏度通常设置为固定值:示例包括80%,90%,95%,99%,99.9%或99.99%。敏感性/特异性的权衡应与I型和II型错误的危害进行比较。通常,与统计测试一样,I型错误的危害更大,因此我们可以控制这种风险。但是,这些危害很少可以量化。因此,我主要反对基于单一预测精度度量的临界选择方法:它们错误地传达了可以并且已经量化的危害。

您的误报过多问题就是一个相反的例子:II型错误可能更有害。然后,您可以设置阈值以达到所需的特异性,并在该阈值下报告达到的灵敏度。

如果您发现两者都太低而不能被实践接受,那么您的风险模型将不起作用,应将其拒绝。

灵敏度和特异性很容易计算,或者可以在表格中查找所有可能的临界值。ROC的问题在于它忽略了图形中的特定截止信息。因此,ROC与选择截止值无关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.