带有交互作用项的LASSO-主效应缩小到零可以吗？

LASSO回归将系数缩小为零，从而有效地提供了模型选择。我相信在我的数据中，名义协变量和连续协变量之间存在有意义的相互作用。但是，真实模型的“主要影响”不一定有意义（非零）。当然我不知道，因为真正的模型是未知的。我的目标是找到真实的模型并尽可能地预测结果。

我了解到，在建立交互之前，经典的建模方法总是会包含主要效果。因此，如果在同一模型中存在协变量的交互作用，那么就不会有没有两个协变量和的主效应的模型。因此，该功能会仔细选择模型术语（例如，基于后向或前向AIC）以遵守该规则。 $X$ $Z$ $X*Z$ stepR

LASSO的工作方式似乎有所不同。由于所有参数都是不利的，因此毫无疑问会发生这样的情况，即主效应缩小为零，而最佳（例如，交叉验证）模型的交互作用为非零。这是我特别为我的数据发现当使用R的glmnet软件包。

我收到了基于上面引用的第一条规则的批评，即，我最终的交叉验证的套索模型不包括一些非零交互的相应主效应项。但是，在这种情况下，此规则似乎有些奇怪。最终的问题是真实模型中的参数是否为零。假设它是，但交互作用为非零，则LASSO可能会识别出这一点，从而找到正确的模型。实际上，由于该模型不包含真正为零的主效应（实际上是噪声变量），因此根据该模型进行的预测似乎更为精确。

我是否可以基于此理由驳斥批评，还是应该采取一些预防措施，使LASSO在交互作用术语之前确实包含主要作用？

— 汤姆卡
source

有人对此表示反对。我想知道

— 为什么

您的目标是预测，推断还是其他？

— Andrew M

@AndrewM我想尽可能地估计真实模型，解释导致因变量的变量，并使用预测值。

— tomka '16

对于您的第一个目标，请注意，交叉验证对于模型选择而言是不一致的。实际上，已经表明，“真实”模型倾向于使我们的预测性能估计最大化的模型的子集。对于第二个目标，请注意套索提供了严重偏差的估计。因此，我认为您需要确定主要目标是什么，并在提供有用建议之前编辑问题以弄清楚。

— 安德鲁M

@AndrewM我的问题是：使用LASSO时是否应将主要效果包括在模型中？对于我的两个对象，可能会分别回答这个问题。我认为这个问题不需要进一步修正，但是指出这些目标很重要，请参见第一段中的编辑。

— tomka '16

Answers:

回答此问题的一个困难是，在大多数实际应用中，很难将LASSO与“真实”模型的思想相吻合，这些应用通常在预测变量之间具有不可忽略的相关性。在那种情况下，与任何变量选择技术一样，LASSO以非零系数返回的特定预测变量将取决于从基础总体中抽样的变化情况。您可以通过对来自同一数据集的多个引导程序样本执行LASSO并比较返回的预测变量集来进行检查。

此外，正如@AndrewM在评论中指出的那样，LASSO提供的估计偏差意味着您将不会“尽可能紧密地”预测结果。相反，您将基于不可避免的偏差-方差折衷的特定选择来预测结果。

因此，鉴于这些困难，我希望您希望自己了解，而不仅仅是为了让批评家满意，这些因素会影响相互作用的主要作用。R中有一个可用的包glinternet，它似乎恰好可以满足您的需要（尽管我没有经验）：

组套索INTERNET。拟合满足强层次关系的线性成对相互作用模型：如果相互作用系数估计为非零，那么它的两个关联主效应也将具有非零估计系数。用任意数量的级别，连续变量及其组合容纳分类变量（因子）。

或者，如果您没有太多的预测变量，则可以考虑使用岭回归，该回归将返回所有变量的系数，这些变量可能对特定数据样本的变异性的依赖性要小得多。

— 教育部
source

我参加聚会很晚，但是关于您的问题，我的想法很少。

套索选择有用的信息。让我们考虑套索作为一种以最少数量的特征获得最高预测性能的方法。在某些情况下，套索选择交互而不是主要效果是完全可以的。这只是意味着主要影响不是信息性的，而交互作用才是。
您只是在报告发现的内容。您使用了一些方法，并且产生了一些结果。您以透明的方式报告它，从而实现了可重复性。我认为您的工作已经完成。结果是客观的，您找到了发现的内容，而不是要证明自己的理由，为什么没有找到其他东西。
所有单位都是任意的。互动只是单位。 假设您学习色彩。颜色可以作为波长或对数波长或作为3个RGB变量或作为色相和色调的相互作用等包含在模型中。没有内在的正确或错误的颜色表示。您将选择最适合您的问题的解决方案。交互也是您可以任意使用的单位。窗口的面积，仅仅是其高度和宽度的相互作用，是否应在模型中包括窗口的高度和宽度？速度只是质量和速度的相互作用。速度只是时间和距离的相互作用。工时只是时间和工作人数的相互作用。数学处理剂量*年龄与身高*宽度相同。“您必须始终包括主要影响”的说法被高估了。
套索不能近似实际模型，这并不意味着推理，所选变量不稳定。如果您具有相关的信息预测变量，套索会倾向于选择一个并将其他变量推为0，因此您的模型将忽略相当一部分信息变量。另外，正如评论中指出的那样，如果您发现交叉验证中最好的lambda，套索将比实际模型选择更多的变量。另一个问题是，套索中的选择不稳定。因此，如果再次对总体中的另一个样本运行套索，则会以不同的所选变量集结束。因此，不要过多地选择变量。而且，贝塔系数是有偏差的，因此不能用于经典的参数假设检验。但是，有很多解决方法（下一点）
套索的推断。套索可用于对预测变量进行推断。最简单的方法是对其进行引导，并计算每个变量被选择的次数，除以重采样的次数，然后得到p值。在这种情况下，P是套索选择变量的概率。您仍然可以得到显着的交互效果和无关紧要的主要效果，但这不是问题，正常的假设检验也可能发生这种情况。Hastie等人对此问题进行了很好的论述。等免费书籍：《稀疏的统计学习》，第6章http://web.stanford.edu/~hastie/StatLearnSparsity/可以对整个lambda值范围执行引导，这将导致所有变量的稳定路径。可以使用稳定性选择方法进行扩展，以找到针对家庭错误校正的一组重要变量。http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2010.00740.x/abstract还有其他一些套索推断方法，可能有用。即自适应套索或去壳套索。有关R实施的信息，请参见DOI：10.1214 / 15-STS527或IMO在Buhlmanm，van de Geer中的更易解释的书：高维数据统计http://www.springer.com/la/book/9783642201912
其他套索相关的事情要注意。据我所知，脊线或弹性网的性能优于套索。如果存在有关变量的领域知识，则可以使用组套索或稀疏组套索来强制套索保留或丢弃整个预测变量组，而不是单独对待它们（例如，基因路径，伪编码因子变量）。对于空间或有序数据，可以使用融合套索。在上述稳定性选择文件中引入的随机套索趋向于生成性能与标准套索相同的稀疏模型。

— rep_ho
source

真的很喜欢＃3

— user4581 18-4-5

我有一个我特别希望不影响少量主要效果的应用程序。令Y = X.main beta + X.inter beta.inter + eps

a）fit.Y = OLS（X.main，Y）。令tilde.Y = Y-预测（fit.Y，X.main）b）fit [，j] = OLS（X.main，X.inter [，j]）j = 1 ... k。令tilde.X.inter [，j] = X.inter [，j]-预言（fit.j，X.main）c）适合=拉索（tilde.X.inter，tilde.y）。主效果系数等于fit.Y-coef（fit）* fit [，1：dim（X.inter）[2]]。相互作用效应的系数等于coef（fit）

在步骤a和b中，无需进行样本拆分。这对我行得通！

— 维拉
source