我已经使用L1正则化拟合了逻辑回归模型(套索逻辑回归),我想测试拟合系数的显着性并获得其p值。我知道Wald的检验(例如)是在不进行正则化的情况下测试单个系数在完全回归中的显着性的一种选择,但是对于Lasso,我认为会出现更多的问题,这些问题不允许使用常规的Wald公式。例如,检验所需的方差估计不遵循通常的表达式。套索纸原件
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
建议使用基于引导程序的程序来估计系数方差,(再次,我认为)测试可能需要此方差(第2.5节,第272页的最后一段和273的开头):
一种方法是通过引导程序:要么可以固定要么可以针对每个引导程序样本对进行优化。固定类似于选择(特征的)最佳子集,然后对该子集使用最小二乘标准误差
我的理解是:反复将Lasso回归拟合到整个数据集,直到找到正则化参数的最佳值(这不是引导程序的一部分),然后仅使用由Lasso选择的特征将OLS回归拟合到子样本数据并应用通常的公式来计算每个回归的方差。(然后,我该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计?)
此外,将常用的显着性检验(例如Wald检验利用估计的beta和方差)与系数的Lasso估计和自举估计方差一起使用是否正确?我可以肯定它不是,但是任何帮助(使用其他测试,使用更直接的方法,无论如何...)都非常受欢迎。
根据这里的答案,我怀疑无法得出推论和p值。就我而言,p值是一个外部要求(尽管我选择使用L1正则化)。
非常感谢
编辑 如果我仅使用上一次套索逻辑回归所选择的变量来拟合OLS逻辑回归怎么办?显然(请参阅此处),
进行交叉验证后,无需再次运行模型(您只需从cv.glmnet的输出中获取系数),实际上,如果您在不惩罚的情况下拟合新的逻辑回归模型,那么您将无法使用套索
但是,如果我这样做的唯一目的是能够在不使变量数量减少的情况下计算p值呢?这是一个很肮脏的方法吗?:-)