1
下采样会改变逻辑回归系数吗?
如果我有一个非常罕见的阳性类别的数据集,并且对阴性类别进行了下采样,然后执行逻辑回归,是否需要调整回归系数以反映我改变了阳性类别的患病率这一事实? 例如,假设我有一个包含4个变量的数据集:Y,A,B和C。Y,A和B是二进制的,C是连续的。对于11,100个观察,Y = 0,对于900个Y = 1: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) 给定A,B和C,我拟合了logistic回归来预测Y。 dat1 <- data.frame(Y, A, …