通过丢弃最小二乘系数来稀疏性

14

假设我希望针对标准化的回归，但是我想要一个稀疏的解决方案。回归之后，为什么不允许丢弃最小幅度的系数？ $Y$ $X$

作为记录，我听说过并且经常使用LARS和LASSO方法。我很好奇为什么上述方法不适用。

regression regression-coefficients

— 戴维森·皮隆
source

2

+1这些简单的问题可能很棘手-他们使人们难以思考基本概念。

— ub

14

如果是正交的，那将没有问题。但是，解释变量之间强相关性的可能性应该让我们停顿一下。 $X$

考虑最小二乘回归的几何解释时，反例很容易得到。取为具有，说，几乎正态分布系数和为几乎平行于它。令与和生成的平面正交。我们可以设想一个主要在方向上的，但在平面中从原点偏移一个相对较小的量。因为和 $X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ $X_1,X_2$ $X_1$ 几乎平行，它在该平面中的分量可能都具有较大的系数，从而导致我们丢掉，这将是一个巨大的错误。 $X_2$ $X_3$

可以通过模拟重新创建几何，例如通过以下R计算进行：

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

的方差足够接近，我们可以检查拟合系数作为标准化系数的代理。在完整模型中，系数是0.99，-0.99和0.1（均非常显着），根据设计，系数最小（到目前为止）与相关。残留标准误差为0.00498。在简化的（“稀疏”）模型中，残留标准误差为0.09803，比标准误差大倍：这是一个巨大的增长，反映出丢弃具有最小标准化系数的变量几乎丢失了有关所有信息。的已从下降 $X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ 几乎为零。这两个系数都没有明显高于水平。 $0.38$

散点图矩阵显示了所有：

x1，x2，x3和y的散点图矩阵

和之间的强相关性从右下角的点的线性对齐清晰可见。从其他面板中的圆形散点图可以清楚地看出和与和之间的差相关性。然而，最小的标准化系数属于而不是或。 $x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

— ub
source

2

在我看来，如果估计系数接近0且数据已标准化，则丢弃该变量不会损害预测。当然，如果系数在统计上不显着，那似乎没有问题。但这必须谨慎进行。IV可能是相关的，删除一个IV可能会改变其他IV的系数。如果您开始以这种方式显示多个变量，这将变得更加危险。子集选择过程旨在避免此类问题，并使用明智的标准来包含和排除变量。如果您问弗兰克·哈雷尔，他将反对循序渐进的程序。您提到了LARS和LASSO，这是两种非常现代的方法。但是还有很多其他信息，包括信息标准，这些信息标准引入了太多变量。

如果尝试使用经过大量文献仔细研究的子集选择程序，您可能会发现它会导致解决方案以较小的系数来消除变量，特别是如果它们因统计显着不同于0而未通过测试时。

— 迈克尔·R·切尼克
source