3
进行逻辑回归时,不平衡样本是否重要?
好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。 我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。 但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?