Answers:
如果是正交的,那将没有问题。但是,解释变量之间强相关性的可能性应该让我们停顿一下。
考虑最小二乘回归的几何解释时,反例很容易得到。取为具有,说,几乎正态分布系数和X 2为几乎平行于它。令X 3与X 1和X 2生成的平面正交。我们可以设想一个主要在X 3方向上的Y,但在X 1,X 2平面中从原点偏移一个相对较小的量。因为X 1和几乎平行,它在该平面中的分量可能都具有较大的系数,从而导致我们丢掉 X 3,这将是一个巨大的错误。
可以通过模拟重新创建几何,例如通过以下R
计算进行:
set.seed(17)
x1 <- rnorm(100) # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1 # Almost parallel to x1
x3 <- rnorm(100) # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005 # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e
summary(lm(y ~ x1 + x2 + x3)) # The full model
summary(lm(y ~ x1 + x2)) # The reduced ("sparse") model
的方差足够接近1,我们可以检查拟合系数作为标准化系数的代理。在完整模型中,系数是0.99,-0.99和0.1(均非常显着),根据设计,系数最小(到目前为止)与X 3相关。残留标准误差为0.00498。在简化的(“稀疏”)模型中,残留标准误差为0.09803,比标准误差大20倍:这是一个巨大的增长,反映出丢弃具有最小标准化系数的变量几乎丢失了有关Y的所有信息。的- [R 2已从下降0.9975几乎为零。这两个系数都没有明显高于水平。
散点图矩阵显示了所有:
和y之间的强相关性从右下角的点的线性对齐清晰可见。从其他面板中的圆形散点图可以清楚地看出x 1和y与x 2和y之间的差相关性。然而,最小的标准化系数属于x 3而不是x 1或x 2。
在我看来,如果估计系数接近0且数据已标准化,则丢弃该变量不会损害预测。当然,如果系数在统计上不显着,那似乎没有问题。但这必须谨慎进行。IV可能是相关的,删除一个IV可能会改变其他IV的系数。如果您开始以这种方式显示多个变量,这将变得更加危险。子集选择过程旨在避免此类问题,并使用明智的标准来包含和排除变量。如果您问弗兰克·哈雷尔,他将反对循序渐进的程序。您提到了LARS和LASSO,这是两种非常现代的方法。但是还有很多其他信息,包括信息标准,这些信息标准引入了太多变量。
如果尝试使用经过大量文献仔细研究的子集选择程序,您可能会发现它会导致解决方案以较小的系数来消除变量,特别是如果它们因统计显着不同于0而未通过测试时。