通过丢弃最小二乘系数来稀疏性


14

假设我希望针对标准化的X回归,但是我想要一个稀疏的解决方案。回归之后,为什么不允许丢弃最小幅度的系数?YX

作为记录,我听说过并且经常使用LARS和LASSO方法。我很好奇为什么上述方法不适用。


2
+1这些简单的问题可能很棘手-他们使人们难以思考基本概念。
ub

Answers:


14

如果是正交的,那将没有问题。但是,解释变量之间强相关性的可能性应该让我们停顿一下。X

考虑最小二乘回归几何解释,反例很容易得到。取为具有,说,几乎正态分布系数和X 2为几乎平行于它。令X 3X 1X 2生成的平面正交。我们可以设想一个主要在X 3方向上的Y,但在X 1X 2平面中从原点偏移一个相对较小的量。因为X 1X1X2X3X1X2YX3X1,X2X1几乎平行,它在该平面中的分量可能都具有较大的系数,从而导致我们丢掉 X 3,这将是一个巨大的错误。X2X3

可以通过模拟重新创建几何,例如通过以下R计算进行:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

的方差足够接近1,我们可以检查拟合系数作为标准化系数的代理。在完整模型中,系数是0.99,-0.99和0.1(均非常显着),根据设计,系数最小(到目前为止)与X 3相关。残留标准误差为0.00498。在简化的(“稀疏”)模型中,残留标准误差为0.09803,比标准误差大20倍:这是一个巨大的增长,反映出丢弃具有最小标准化系数的变量几乎丢失了有关Y的所有信息。的- [R 2已从下降0.9975Xi1X320YR20.9975几乎为零。这两个系数都没有明显高于水平。0.38

散点图矩阵显示了所有:

x1,x2,x3和y的散点图矩阵

y之间的强相关性从右下角的点的线性对齐清晰可见。从其他面板中的圆形散点图可以清楚地看出x 1yx 2y之间的差相关性。然而,最小的标准化系数属于x 3而不是x 1x 2x3yx1yx2yx3x1x2


2

在我看来,如果估计系数接近0且数据已标准化,则丢弃该变量不会损害预测。当然,如果系数在统计上不显着,那似乎没有问题。但这必须谨慎进行。IV可能是相关的,删除一个IV可能会改变其他IV的系数。如果您开始以这种方式显示多个变量,这将变得更加危险。子集选择过程旨在避免此类问题,并使用明智的标准来包含和排除变量。如果您问弗兰克·哈雷尔,他将反对循序渐进的程序。您提到了LARS和LASSO,这是两种非常现代的方法。但是还有很多其他信息,包括信息标准,这些信息标准引入了太多变量。

如果尝试使用经过大量文献仔细研究的子集选择程序,您可能会发现它会导致解决方案以较小的系数来消除变量,特别是如果它们因统计显着不同于0而未通过测试时。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.