使用套索进行变量选择后的推论


17

我正在使用Lasso在相对较低的尺寸设置(n >> p)中进行特征选择。拟合套索模型后,我想使用具有非零系数的协变量来拟合无惩罚的模型。我这样做是因为我想要无偏差的估计,而套索不能给我。我还希望无偏估计的p值和置信区间。

我很难找到有关该主题的文献。我发现的大多数文献都是关于将置信区间放在套索估计上,而不是重新拟合的模型。

根据我的阅读,仅使用整个数据集来重新拟合模型会导致不切实际的p值/ std错误。目前,样本分割(按照Wasserman和Roeder(2014年)或Meinshausen等人(2009年)的样式)似乎是一个不错的选择,但我正在寻找更多建议。

有没有人遇到这个问题?如果是这样,请您提供一些建议。


我不明白,只要置信区间(至少渐近地)具有正确的覆盖范围,如果套索估计量有偏差,那为什么应该重要呢?这是为什么要将OLS估计值适合套索获得的支持的唯一原因吗?
user795305

也许我误解了所读的内容,但是渐近正确的覆盖范围不是指有偏估计,而不是真正的稀疏无偏估计吗?
EliK

1
我不确定“真正的稀疏但无偏”的估计是什么意思,但是如果您知道套索估计具有具有渐近正确覆盖率的置信区间,那么您就不需要做更多的事情了。刚刚由Greenparker(+1)链接的论文是一篇非常有趣的论文(也是我所知道的有关该主题的最新论文),该论文(部分)讨论了如何在套索然后ols系数上渐近地建立置信区间。我想指出的是,您不需要拟合OLS即可获得无偏系数,因为无偏并不重要。
user795305

我想我一直在误会。您所指的渐近正确的覆盖范围是关于true参数的。因此,即使Lasso给出了有偏系数,我们也可以构造置信区间,该置信区间应具有对真实参数的正确覆盖范围?
EliK

2
由于选择了模型,因此如果不使用套索进行估算,就不会有无根据的估算。选择变量然后通过OLS拟合后,模型中各项的系数实际上将偏离0(与其他形式的变量选择一样)。少量的收缩实际上可以减少偏差。
Glen_b-恢复莫妮卡的时间

Answers:


12

添加到先前的响应中。您绝对应该查看Tibshirani和同事的最新工作。他们开发了一个严格的框架,可为套索类型的方法推导选择校正的p值和置信区间,并且还提供了R包。

看到:

Lee,Jason D.等。“精确的选择后推断,并应用于套索。” 统计年鉴44.3(2016):907-927。(https://projecteuclid.org/euclid.aos/1460381681

泰勒,乔纳森和罗伯特·蒂布希拉尼。“统计学习和选择性推理。” 美国国家科学院院刊112.25(2015):7629-7634。

R包:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

通常,在通过套索完成变量选择后不加惩罚地进行重新拟合被视为“作弊”,因为您已经查看了数据,并且所得的p值和置信区间在通常情况下无效。

p

套索选择的变量集是确定性的,并且与数据无关,且概率很高。

因此,两次查看数据不是问题。您将需要查看问题是否满足纸质搁板中所述的条件。

(论文中也有很多有用的参考资料)


参考:

Zhao,S.,Shojaie,A.&Witten,D.(2017年)。捍卫不可抗辩:高维推理的一种非常幼稚的方法。取自:https : //arxiv.org/pdf/1705.05543.pdf


9
+1但是,值得注意的是,除了“在非常大的数据设置中” ,作者明确建议使用他们的方法:“我们不主张在大多数实际的数据分析设置中采用上述方法。在实践中……当样本量较小或中等和/或不满足假设时,这种方法的效果会很差”(第27页)。作为记录,本文是Zhao,Shojaie和Witten,《捍卫不可辩驳:高维推理的一种非常幼稚的方法》(2017年5月16日)。
ub

@whuber还要记住,本文在arxiv.org上-不确定是否经过同行评审,因此作者的方法可能存在其他问题。
罗伯特·F

0

我想从正交/双机学习文献中增加一些论文,这些文献在应用计量经济学文献中变得越来越流行。

  • 贝罗尼,亚历山大,维克托·切尔诺茹科夫和克里斯蒂安·汉森。“从高维对照中选择后对治疗效果的推论。” 经济研究评论81.2(2014):608-650。

    本文讨论了使用LASSO选择“其他”控件后,OLS估计变量影响的理论特性。

  • Victor Chernozhukov,Denis Chetverikov,Mert Demirer,Esther Duflo,Christian Hansen,Whitney Newey,James Robins,用于治疗和结构参数的双/去偏机器学习,《计量经济学杂志》,第21卷,第1期,2018年2月1日,C1-C68页,https://doi.org/10.1111/ectj.12097

    这为使用多种非参数方法(ML算法)非线性控制高维扰动参数(混杂因素)发展了综合理论,然后研究了特定协变量对结果的影响。他们处理部分线性框架和完全参数框架。他们还考虑了利益变量混杂的情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.