选择LASSO变量后进行OLS有何意义?


20

最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。

我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释?

这里是一些相关的讨论:

LASSO进行变量选择

使用套索/随机变量选择变量后使用树

如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?


您能解释一下在执行LASSO之后执行“ OLS回归”意味着什么吗?特别是,此OLS步骤是否试图估计LASSO尚未估计?
whuber

2
最近有一些关于该主题的工作论文。许多人似乎要求假设有效变量集稀疏。如果该假设不成立,则将存在省略变量偏差。人们喜欢ol,是因为他们希望将coef解释为不受样本边际影响的影响。计量经济学相当陷于该范式中。
–generic_user

4
这本最新的LASSO书籍(免费在线)中,第11.4节似乎解决了这个问题。我还没有详细阅读,但是引言的结尾是说“给出[LASLAS估计],它可以正确地恢复对的支持,我们可以很好地估计。只需执行仅限于该子集的普通最小二乘回归即可。” β^ββ
GeoMatt22 2016年

Answers:


12

前几天有一个类似的问题,具有相关的参考文献:

  • Belloni,A.,Chernozhukov,V.和Hansen,C.(2014)“在高维对照中选择后的治疗效果推论”,《经济研究评论》 81(2),第608-50页(链接

至少对我来说,这篇论文很难读,因为这种相对简单的背后的证据非常详尽。当您有兴趣估算像

ÿ一世=αŤ一世+X一世β+ϵ一世

其中是您的结果,是您感兴趣的某种治疗效果,是潜在控制的向量。目标参数为。假设治疗的结果和一组稀疏的对照可以解释您结果的大部分差异,Belloni等人。(2014年)开发了一种双稳健的选择方法,该方法提供正确的点估计和有效的置信区间。不过,这种稀疏性假设很重要。ÿ一世Ť一世X一世α

如果包含的一些重要预测变量,但您不知道它们是什么(单个变量,它们的高阶多项式或与其他变量的相互作用),则可以执行三步选择过程:X一世ÿ一世

  1. 在上回归,它们的平方和相互作用,并使用LASSO选择重要的预测变量ÿ一世X一世
  2. 对,它们的平方和相互作用进行回归,并使用LASSO选择重要的预测变量Ť一世X一世
  3. 在上回归以及在前两个步骤中选择的所有变量ÿ一世Ť一世

他们提供了有关此方法为何起作用以及为什么您从此方法中获得正确的置信区间等的证明。他们还表明,如果仅对上述回归进行LASSO选择,然后对治疗结果和所选变量进行回归,则会得到错误的点估计和错误的置信区间,就像Björn所说的那样。

这样做的目的是双重的:将您的初始模型(根据直觉或理论指导变量选择)与双重稳健选择模型进行比较,可以使您大致了解第一个模型的性能。也许您的第一个模型忘记了一些重要的平方或交互项,因此遭受功能指定不正确或变量遗漏的困扰。其次,Belloni等。(2014)的方法可以改善对目标参数的推断,因为多余的回归变量会在其过程中受到不利影响。


“正确的”点估算?
理查德·哈迪

3

要执行变量选择,然后重新进行分析,好像没有发生变量选择,并且从一开始就打算使用所选模型,通常会导致效应大小过大,p值无效以及置信区间低于标称覆盖率。也许如果样本量很大并且有一些巨大的影响和很多无效的影响,那么LASSO + OLS可能不会受到太大的影响,但除此之外,我看不到任何合理的理由,在这种情况下,LASSO估计也应该很好。


1
但是,为什么第二个模型从头开始,好像没有选择任何变量?LASSO是否不选择具有最佳预测能力的解释变量?顺便说一句,我想再次将LASSO稀疏矩阵变量填充到glm中。现在我已经知道LASSO本身就是一种回归。
SIslam
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.