LASSO如何在共线预测变量中选择？

我正在寻找一个直观的答案，为什么GLM LASSO模型会从一组高度相关的预测器中选择一个特定的预测器，以及为什么这样做与最佳子集特征选择不同。

根据1996年Tibshirani中图2所示的LASSO的几何形状，我认为LASSO选择方差更大的预测变量。

现在，假设我使用具有10倍CV的最佳子集选择来获得2个逻辑回归模型的预测变量，并且我具有合理的先验知识，这2个预测变量是最优的（0-1损失意义上）。

LASSO解决方案偏向于使用较少的简约（5个预测变量）解决方案，并具有较大的预测误差。凭直觉，是什么导致差异出现？是因为LASSO在相关预测变量中进行选择的方式吗？

feature-selection lasso

— 皮特·索科尔
source

LASSO在惩罚和路径依赖方面不同于最佳子集选择。

在最佳子集选择中，大概使用CV来确定2个预测变量给出了最佳性能。在CV期间，将使用没有惩罚的全幅度回归系数来评估要包含的变量数量。一旦决定使用2个预测变量，则将在完整数据集上并行比较2个预测变量的所有组合，以找到最终模型的2个预测变量。这两个最终预测变量将被赋予其全幅度回归系数，而不会受到惩罚，就好像它们一直是唯一的选择。

您可以认为LASSO首先是对回归系数的大小之和进行大的惩罚，然后逐渐放松。结果是变量一次输入一个，在放宽过程中的每个点都做出决定，增加模型中已有变量的系数还是添加另一个变量是否更有价值。但是，当您说到2变量模型时，LASSO允许的回归系数的幅度将比标准非惩罚回归中用于比较2变量模型和3变量模型的变量相同。最佳子集选择。

可以认为，这使新变量比最佳子集选择更容易输入LASSO。试探性地，LASSO权衡了可能低于实际的回归系数与应包含多少变量的不确定性之间的权衡。如果您确定只需要包含2个变量，则这通常会在LASSO模型中包含更多变量，并且可能会降低LASSO的性能。但是，如果您已经知道正确模型中应该包含多少个预测变量，那么您可能就不会使用LASSO。

到目前为止，没有什么依赖于共线性，这导致最佳子集与LASSO中变量选择的不同类型的任意性。在此示例中，最佳子集检查了两个预测变量的所有可能组合，并在这些组合中选择了最佳组合。因此，该特定数据样本的最佳2获胜。

LASSO的路径依赖关系是一次添加一个变量，这意味着一个与之相关的变量的早期选择可能会影响与它相关的其他变量在松弛过程中的稍后进入。变量也可能提前输入，然后随着其他相关变量的输入其LASSO系数下降。

在实践中，使用这两种方法在最终模型中的相关预测变量之间的选择高度依赖于样本，可以通过在相同数据的引导样本上重复这些模型构建过程来进行检查。如果没有太多的预测变量，而您的主要兴趣是对新数据集进行预测，则倾向于保留所有预测变量的岭回归可能是一个更好的选择。

— 教育部
source