应用低事件发生率的逻辑回归


15

我有一个数据集,其中事件率非常低(40,000总分)。我正在对此进行逻辑回归。我曾与某人讨论过,结果表明逻辑回归不会在如此低的事件发生率数据上提供良好的混淆矩阵。但是由于业务问题及其定义方式,尽管我同意可以删除一些非事件人口,但我无法将事件数从40,000增加到任何更大的数目。12105

请告诉我您对此的看法,特别是:

  1. Logistic回归的准确性是否取决于事件发生率,或者是否建议任何最低事件发生率?
  2. 是否有用于低事件发生率数据的特殊技术?
  3. 删除非事件总体是否对模型的准确性有利?

我是统计建模的新手,请原谅我的无知,请解决我可能想到的任何相关问题。

谢谢,


3
40000 / 12e5 = 3.3%,对我来说,这并不是一个非常低的比率。
GaBorgulya

1
谢谢。如果人们需要更多的环境来决定事件的高低,此数据属于保险行业。
2011年

3
您可能对稀有事件数据中的逻辑回归感兴趣。
Bernd Weiss

Answers:


11

我将无序回答您的问题:

3删除非事件总体是否对模型的准确性有利?

每个观察将(通过似然函数)提供有关该参数的一些其他信息。因此,删除数据毫无意义,因为您将丢失信息。

1 Logistic回归的准确性是否取决于事件发生率,或者是否建议任何最低事件发生率?

从技术上讲,是的:罕见的观察会提供更多信息(也就是说,似然函数会更陡峭)。如果您的事件比率是50:50,则对于相同数量的数据,您会获得更紧密的置信带(如果您是贝叶斯,则为可信区间)。但是,您无法选择事件发生率(除非您正在进行案例对照研究),因此您必须根据自己的情况进行选择。

2是否有针对低事件发生率数据的特殊技术?

可能出现的最大问题是完美分离:当变量的某种组合给出所有非事件(或所有事件)时会发生这种情况:在这种情况下,最大似然参数估计(及其标准误差)将接近无穷大(尽管通常该算法将提前停止)。有两种可能的解决方案:

a)从模型中删除预测变量:尽管这将使算法收敛,但是您将以最具解释力的方式删除变量,因此这仅在模型过度拟合时才有意义(例如拟合过多的复杂交互) 。

b)使用某种惩罚,例如先验分配,这将使估计缩减回更合理的值。


+1我还要补充一点,就是我看到了人们将数据重新加权为50:50的环境。权衡似乎是模型分类能力的提高(假设选择了一个好的阈值),而总体总体患病率的信息却有所损失,而系数的解释也有些困难。
David J. Harris

1
@David:我也听说过人们在增加权重,并使用复杂的伪自举方案,他们只对高频类进行重采样。对于所有这些技术,您最终都将丢弃(或组成)数据。我认为,如果这可以改善您的模型,那么您可能适合错误的模型。另请参阅我的评论:stats.stackexchange.com/questions/10356/…–
Simon Byrne

1)很抱歉,如果我不清楚:我正在谈论更改事件和非事件的相对影响,就像R glm函数中的“权重”参数一样。我想,最糟糕的是,这就像丢掉每个降权数据点的一部分,但这并不是一回事。2)正如我说过的,此决定存在一些权衡。在采样对象定义不明确且真实事件发生率一开始就没有意义的情况下,这可能是最有意义的。我当然不会全面推荐它。
David J. Harris

2

对于删除时间或空间数据的非事件,还有更好的选择:您可以跨时间/空间聚合数据,并将计数建模为泊松。例如,如果您的事件是“在第X天发生火山喷发”,那么发生火山喷发的日子将不多。但是,如果将几天分成几周或几个月,例如“第X个月的火山喷发次数”,那么您将减少事件的数量,而更多的事件将具有非零值。


6
我不得不说这个建议根本不能回答这个问题。1)他们的问题完全没有暗示OP正在处理空间或时间数据。2)汇总数据如何帮助识别任何有意义的关系(使用的信息少于原始单位!)
Andy W

2
同样要注意的是,要使任何观察到的关系在合计水平上发生,就必须存在于原始单位的水平中,尽管合计水平上的关系并不一定反映两个变量之间的关系水平。参见qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Andy W

同意安迪。
2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.