好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。
我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。
但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?
好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。
我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。
但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?
Answers:
训练集中的平衡
对于逻辑回归模型,不平衡的训练数据仅影响模型截距的估计(尽管这当然会使所有预测的概率产生偏差,从而反过来会损害您的预测)。幸运的是,截距校正很简单:只要您知道或可以猜出0和1的真实比例,并且知道训练集中的比例,就可以对截距应用稀有事件校正。有关详细信息,请参见King and Zeng(2001) [ PDF ]。
这些“罕见事件更正”是为案例控制研究设计而设计的,这些设计主要用于流行病学,即通过选择固定的,通常为平衡的0例和1例来选择病例,然后需要对所得的样本选择偏差进行校正。确实,您可以以相同的方式训练分类器。选择一个很好的平衡样本,然后更正截距,以考虑到您已经选择了因变量这一事实,以了解比随机样本能够告诉您的稀有类别更多的信息。
做出预测
在一个相关但截然不同的主题上:不要忘记,您应该明智地进行预测。当模型概率大于0.5时,并不总是最好预测1。另一个阈值可能更好。为此,您应该查看分类器的接收器工作特征(ROC)曲线,而不仅仅是具有默认概率阈值的预测成功。
predict
并计算每个概率是否大于新阈值即可获得预测概率。
问题不是类别本身本身是不平衡的,而是可能没有足够的属于少数类别的模式来充分表示其分布。这意味着该问题可能会出现在任何分类器上(即使您有一个综合性问题并且您知道您的模型真实),而不仅仅是逻辑回归。好处是,随着越来越多的数据可用,“类不平衡”问题通常会消失。话虽如此,4:1并没有那么不平衡。
如果您使用平衡的数据集,则重要的是要记住,假设类别相同,模型的输出现在是后验概率的估计,因此您最终可能会偏向模型太多。我将对每个类别的模式进行加权,并通过最小化具有正确操作类别频率的测试集的交叉熵来选择权重。
If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
考虑两个样本的基本分布。您是否有足够的样本来测量两个亚人群,而较小的样本中却没有大量的偏差?
请参阅此处以获取更详细的说明。
https://statisticalhorizons.com/logistic-regression-for-rare-events