进行逻辑回归时,不平衡样本是否重要?


81

好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。

我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。

但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?


5
很难想象会怎样。也许您将预测概率降低为0.5?如果是这样,请尝试更改截止值。
Aniko

4
ROC曲线下的面积为0.585,结果很差。这意味着在特异性/敏感性之间的权衡值得的确没有一个临界值。设置截止值并不会改善分类,因为这只会使特异性降低大约与提高灵敏度一样多。
米歇尔

3
变量系数中的任何一个是否都与显着不同(例如,超过五个标准误差)?如果不是您的问题,可能是因为您对变量集没有太多的解释能力。0
概率

2
还要注意,就做出好的预测而言,样本量实际上是预测变量中唯一模式的数量,而不是采样个体的数量。例如,即使样本中有数百万人,具有两个级别的单个分类预测变量的模型也只能拟合具有两个参数(每个类别一个)的逻辑回归模型。
概率

Answers:


75

训练集中的平衡

对于逻辑回归模型,不平衡的训练数据仅影响模型截距的估计(尽管这当然会使所有预测的概率产生偏差,从而反过来会损害您的预测)。幸运的是,截距校正很简单:只要您知道或可以猜出0和1的真实比例,并且知道训练集中的比例,就可以对截距应用稀有事件校正。有关详细信息,请参见King and Zeng(2001) [ PDF ]。

这些“罕见事件更正”是为案例控制研究设计而设计的,这些设计主要用于流行病学,即通过选择固定的,通常为平衡的0例和1例来选择病例,然后需要对所得的样本选择偏差进行校正。确实,您可以以相同的方式训练分类器。选择一个很好的平衡样本,然后更正截距,以考虑到您已经选择了因变量这一事实,以了解比随机样本能够告诉您的稀有类别更多的信息。

做出预测

在一个相关但截然不同的主题上:不要忘记,您应该明智地进行预测。当模型概率大于0.5时,并不总是最好预测1。另一个阈值可能更好。为此,您应该查看分类器的接收器工作特征(ROC)曲线,而不仅仅是具有默认概率阈值的预测成功。


8
如果您不知道操作类别的频率,则可以由EM估算它们,而无需了解测试/操作样本的标签。细节在Saerens等人中。“将分类器的输出调整为新的先验概率:一个简单的过程”,《神经计算》,第一卷。14号 1,第21-41页,2002年(dx.doi.org/10.1162/089976602753284446)。我已经使用了几次,对它的工作效果印象深刻。但是请注意,理论上的校正通常不是最佳的,例如通过交叉验证进行设置通常会更好。
Dikran有袋动物2011年

是的,我应该提到ROC曲线的结果也不令人信服。在这种情况下,我认为没有一个阈值可以给出令人满意的结果。
米歇尔

关于预测:我如何考虑0和1个结果的训练集的大小?我确实不希望使用0.5的阈值,但不知道如何在R.做到这一点
Perlnika

1
@Perlnika详细信息在论文链接中(在最简单的情况下,您更改估计的截距)。要使阈值不等于0.5,只需使用predict并计算每个概率是否大于新阈值即可获得预测概率。
conjugateprior

1
@SassaNF的确,可以通过阈值更改来抵消截距偏移。但是,这会将您的概率估计(推断)与错误的相对代价(损失函数)结合起来,而后者在应用程序中可能会有所不同。例如,如果将1误认为0的成本是C乘0误认为1的成本,那么您希望将估计概率定为1 /(1 + C)。
conjugateprior

41

问题不是类别本身本身是不平衡的,而是可能没有足够的属于少数类别的模式来充分表示其分布。这意味着该问题可能会出现在任何分类器上(即使您有一个综合性问题并且您知道您的模型真实),而不仅仅是逻辑回归。好处是,随着越来越多的数据可用,“类不平衡”问题通常会消失。话虽如此,4:1并没有那么不平衡。

如果您使用平衡的数据集,则重要的是要记住,假设类别相同,模型的输出现在是后验概率的估计,因此您最终可能会偏向模型太多。我将对每个类别的模式进行加权,并通过最小化具有正确操作类别频率的测试集的交叉熵来选择权重。


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
朱巴卜2015年

2

考虑两个样本的基本分布。您是否有足够的样本来测量两个亚人群,而较小的样本中却没有大量的偏差?

请参阅此处以获取更详细的说明。

https://statisticalhorizo​​ns.com/logistic-regression-for-rare-events


5
这似乎无法回答问题。
Michael Chernick

那是因为没有确定的答案!它与您如何应用它以及一个人愿意允许其进入估算过程的偏差有关。
Paul Tulloch's

1
我认为这是一个很好的答案。据我了解,所有纠正失衡的尝试都依赖于实验中未捕获的一些外部知识。尤其是了解基础分布将有助于更正。
user1700890
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.