LASSO回归将系数缩小为零,从而有效地提供了模型选择。我相信在我的数据中,名义协变量和连续协变量之间存在有意义的相互作用。但是,真实模型的“主要影响”不一定有意义(非零)。当然我不知道,因为真正的模型是未知的。我的目标是找到真实的模型并尽可能地预测结果。
我了解到,在建立交互之前,经典的建模方法总是会包含主要效果。因此,如果在同一模型中存在协变量的交互作用,那么就不会有没有两个协变量和的主效应的模型。因此,该功能会 仔细选择模型术语(例如,基于后向或前向AIC)以遵守该规则。step
R
LASSO的工作方式似乎有所不同。由于所有参数都是不利的,因此毫无疑问会发生这样的情况,即主效应缩小为零,而最佳(例如,交叉验证)模型的交互作用为非零。这是我特别为我的数据发现当使用R
的glmnet
软件包。
我收到了基于上面引用的第一条规则的批评,即,我最终的交叉验证的套索模型不包括一些非零交互的相应主效应项。但是,在这种情况下,此规则似乎有些奇怪。最终的问题是真实模型中的参数是否为零。假设它是,但交互作用为非零,则LASSO可能会识别出这一点,从而找到正确的模型。实际上,由于该模型不包含真正为零的主效应(实际上是噪声变量),因此根据该模型进行的预测似乎更为精确。
我是否可以基于此理由驳斥批评,还是应该采取一些预防措施,使LASSO在交互作用术语之前确实包含主要作用?