测试套索逻辑回归中的系数显着性


10

[ 这里提出类似的问题,但没有答案]

我已经使用L1正则化拟合了逻辑回归模型(套索逻辑回归),我想测试拟合系数的显着性并获得其p值。我知道Wald的检验(例如)是在不进行正则化的情况下测试单个系数在完全回归中的显着性的一种选择,但是对于Lasso,我认为会出现更多的问题,这些问题不允许使用常规的Wald公式。例如,检验所需的方差估计不遵循通常的表达式。套索纸原件

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

建议使用基于引导程序的程序来估计系数方差,(再次,我认为)测试可能需要此方差(第2.5节,第272页的最后一段和273的开头):

一种方法是通过引导程序:要么可以固定要么可以针对每个引导程序样本对进行优化。固定类似于选择(特征的)最佳子集,然后对该子集使用最小二乘标准误差ttt

我的理解是:反复将Lasso回归拟合到整个数据集,直到找到正则化参数的最佳值(这不是引导程序的一部分),然后仅使用由Lasso选择的特征将OLS回归拟合到子样本数据并应用通常的公式来计算每个回归的方差。(然后,我该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计?)

此外,将常用的显着性检验(例如Wald检验利用估计的beta和方差)与系数的Lasso估计和自举估计方差一起使用是否正确?我可以肯定它不是,但是任何帮助(使用其他测试,使用更直接的方法,无论如何...)都非常受欢迎。

根据这里的答案我怀疑无法得出推论和p值。就我而言,p值是一个外部要求(尽管我选择使用L1正则化)。

非常感谢

编辑 如果我仅使用上一次套索逻辑回归所选择的变量来拟合OLS逻辑回归怎么办?显然(请参阅此处),

进行交叉验证后,无需再次运行模型(您只需从cv.glmnet的输出中获取系数),实际上,如果您在不惩罚的情况下拟合新的逻辑回归模型,那么您将无法使用套索

但是,如果我这样做的唯一目的是能够在不使变量数量减少的情况下计算p值呢?这是一个很肮脏的方法吗?:-)


要对LASSO模型进行推论,您还可以签出提供高维模型推论的CRAN软件包hdi,您可能想看看...
Tom Wenseleers

完整的方法在本文中有很好的描述:projecteuclid.org/euclid.ss/1449670857
Tom Wenseleers

此外,还有cran.r-project.org/web/packages/selectiveInference/index.html软件包,可用于为LASSO提供推断...
Tom Wenseleers

这是一个很好且重要的问题。
Jinhua Wang

Answers:


5

使用通常的显着性检验的问题在于,它们假设存在空变量,即存在随机变量,与结果变量无关。但是,套索所具有的是一堆随机变量,您可以从中选择套索中的最佳变量,并且beta也会缩小。所以您不能使用它,结果将是有偏差的。

据我所知,bootstrap并不是用来获得方差估计的,而是用来获得被选择变量的概率的。这些就是您的p值。查看Hasie的免费书籍《统计学习与稀疏性》,第6章谈论的是同一件事。http://web.stanford.edu/~hastie/StatLearnSparsity/

另请检查本文以了解从套索获取p值的其他方法https://arxiv.org/pdf/1408.4026.pdf可能还有更多


4

选择模型后执行推理的问题在于,您要选择最具预测性的变量,然后像进行独立于数据的选择一样执行推理。可能表明,在使用套索(或任何其他模型选择方法!)进行模型选择后重新拟合回归模型可能会导致偏向估计值(这是简单高斯近似法经常失败的原因之一)对于置信区间)n

幸运的是,近年来,在开发解释后选择的推理方法方面取得了很大进展。与您的案例有关的一些参考资料是:http : //projecteuclid.org/euclid.aos/1460381681https://arxiv.org/pdf/1602.07358.pdf。这些参考文献中讨论的技术在R包selectionInference- https://cran.r-project.org/web/packages/selectiveInference/index.html中实现。selectionInference程序包应产生所需的有效置信区间。


1
在Univ的Coursera的机器学习专业中。在华盛顿特区,课程2(回归)的老师花了整整一周的时间进行套索回归。在其中一张幻灯片中,我描述的过程(使用套索选择特征,然后仅使用那些变量拟合LS回归)被称为去偏,并且被认为是正确的,并用Mario Figueiredo的论文中的图表进行了说明。在此处查看幻灯片105: github.com/MaxPoon/coursera-Machine-Learning-specialization/…–
Pablo

尽管他们建议对套索进行偏置,但他们根本没有讨论假设检验。此外,“去偏”一词具有误导性,因为在重新拟合模型时,它摆脱了套索所引起的向下偏向,但对获胜者诅咒所引起的向上偏向却无济于事。据我所知,真正消除所选模型的回归系数估计偏差的唯一方法是计算条件最大似然估计。arxiv.org/abs/1705.09417
user3903581
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.