最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。
我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释?
这里是一些相关的讨论:
如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?
最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。
我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释?
这里是一些相关的讨论:
如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?
Answers:
前几天有一个类似的问题,具有相关的参考文献:
至少对我来说,这篇论文很难读,因为这种相对简单的背后的证据非常详尽。当您有兴趣估算像
其中是您的结果,是您感兴趣的某种治疗效果,是潜在控制的向量。目标参数为。假设治疗的结果和一组稀疏的对照可以解释您结果的大部分差异,Belloni等人。(2014年)开发了一种双稳健的选择方法,该方法提供正确的点估计和有效的置信区间。不过,这种稀疏性假设很重要。
如果包含的一些重要预测变量,但您不知道它们是什么(单个变量,它们的高阶多项式或与其他变量的相互作用),则可以执行三步选择过程:
他们提供了有关此方法为何起作用以及为什么您从此方法中获得正确的置信区间等的证明。他们还表明,如果仅对上述回归进行LASSO选择,然后对治疗结果和所选变量进行回归,则会得到错误的点估计和错误的置信区间,就像Björn所说的那样。
这样做的目的是双重的:将您的初始模型(根据直觉或理论指导变量选择)与双重稳健选择模型进行比较,可以使您大致了解第一个模型的性能。也许您的第一个模型忘记了一些重要的平方或交互项,因此遭受功能指定不正确或变量遗漏的困扰。其次,Belloni等。(2014)的方法可以改善对目标参数的推断,因为多余的回归变量会在其过程中受到不利影响。