我了解建立预测模型时进行正则化的好处(偏差与方差,防止过度拟合)。但是,我想知道当回归模型的主要目的是对系数进行推断(看看哪些预测变量具有统计学意义)时,也进行正则化(套索,岭,弹性网)是否是一个好主意。我很想听听人们的想法以及与之相关的任何学术期刊或非学术文章的链接。
我了解建立预测模型时进行正则化的好处(偏差与方差,防止过度拟合)。但是,我想知道当回归模型的主要目的是对系数进行推断(看看哪些预测变量具有统计学意义)时,也进行正则化(套索,岭,弹性网)是否是一个好主意。我很想听听人们的想法以及与之相关的任何学术期刊或非学术文章的链接。
Answers:
术语“正则化”涵盖非常多种方法。出于这个答案的目的,我要缩小的意思是“惩罚性优化”,即对您的优化问题增加或L 2的惩罚。
如果真是这样,那么答案是肯定的“是!好吧”。
这样做的原因是,向似然函数添加或L 2罚分导致的数学函数与在获得后验分布的可能性之前加上拉普拉斯或高斯a的数学函数完全相同(电梯音高:先验分布描述了不确定性)数据的先验分布,后验分布描述了数据后的不确定性),这导致了贝叶斯统计101。贝叶斯统计非常流行,并且一直在进行,目的是推断估计的效果。
那是“是的!” 部分。“很好”是指优化后验分布,称为“最大后验”(MAP)估计。但是大多数贝叶斯算法不使用MAP估计,而是使用MCMC算法从后验分布中采样!这具有几个优点,其中一个优点是它在方差分量中倾向于具有较小的向下偏差。
为了简洁起见,我尝试不介绍贝叶斯统计信息的详细信息,但是如果您对此感兴趣,那就是开始查找的地方。
使用岭型罚分和套索型罚分进行估计之间存在主要区别。岭型估计量倾向于将所有回归系数都缩小到零并且有偏差,但是由于它们不会将任何变量都缩小到正好为零,因此易于获得渐近分布。在随后进行假设检验时,岭估计的偏差可能会成问题,但我不是专家。另一方面,套索/弹性网类型的惩罚将许多回归系数缩小为零,因此可以视为模型选择技术。在基于数据选择的模型上进行推理的问题通常称为选择推理问题或选择后推理。近年来,该领域取得了许多发展。
在模型选择之后执行推理的主要问题是选择会截断样本空间。作为一个简单的例子,假设我们观察和只要估计μ如果我们有证据表明它是大于零。然后,我们估计μ如果| y | > c > 0对于某些预先指定的阈值c。在这种情况下,我们仅在绝对值大于c时观察y,因此y不再是正常的,而是被截断的正常。
类似地,套索(或弹性网)以确保已选择选定模型的方式约束样本空间。这种截断更加复杂,但是可以通过分析来描述。
基于这一见解,可以根据数据的截断分布执行推理,以获得有效的测试统计信息。有关置信区间和检验统计信息,请参阅Lee等人的工作:http : //projecteuclid.org/euclid.aos/1460381681
他们的方法在R包selectionInference中实现。
选择模型后的最佳估计(和测试)在(针对套索)中进行了讨论:https : //arxiv.org/abs/1705.09417
及其(远远不够全面的)软件包可在以下网址获得:https: //github.com/ammeir2/selectiveMLE
如果您尝试基于“哪些预测变量具有统计意义”来使用回归进行推断,我会特别推荐LASSO,但并不是出于您可能期望的原因。
实际上,模型中的预测变量趋于相关。即使没有实质的多重共线性,在一组相关预测变量中,回归对“重要”预测变量的选择也可能因样本而异。
所以是的,继续进行LASSO进行回归。然后,对原始数据中的多个引导样本(几百个左右)重复完整的模型构建过程(包括用于选择LASSO惩罚的交叉验证)。了解以这种方式选择的一组“重要”预测变量的可变性。
除非您的预测变量彼此高度正交,否则此过程应使您在解释回归中的p值时要三思而后行,其中各个预测变量“非常”重要。