在进行统计推断时使用正则化

18

我了解建立预测模型时进行正则化的好处（偏差与方差，防止过度拟合）。但是，我想知道当回归模型的主要目的是对系数进行推断（看看哪些预测变量具有统计学意义）时，也进行正则化（套索，岭，弹性网）是否是一个好主意。我很想听听人们的想法以及与之相关的任何学术期刊或非学术文章的链接。

— 用户名
source

4

可以用贝叶斯眼看到正则化，例如套索对应于一些双指数先验（通过交叉验证选择标度）。因此，一种可能性是全力以赴。

— kjetil b halvorsen

1

确定哪些预测变量非零是套索的全部内容！如果要确定统计学上与零明显不同的值，则值得考虑套索之类的方法

— user795305

8

术语“正则化”涵盖非常多种方法。出于这个答案的目的，我要缩小的意思是“惩罚性优化”，即对您的优化问题增加或惩罚。 $L_1$ $L_2$

如果真是这样，那么答案是肯定的“是！好吧”。

这样做的原因是，向似然函数添加或罚分导致的数学函数与在获得后验分布的可能性之前加上拉普拉斯或高斯a的数学函数完全相同（电梯音高：先验分布描述了不确定性）数据的先验分布，后验分布描述了数据后的不确定性），这导致了贝叶斯统计101。贝叶斯统计非常流行，并且一直在进行，目的是推断估计的效果。 $L_1$ $L_2$

那是“是的！” 部分。“很好”是指优化后验分布，称为“最大后验”（MAP）估计。但是大多数贝叶斯算法不使用MAP估计，而是使用MCMC算法从后验分布中采样！这具有几个优点，其中一个优点是它在方差分量中倾向于具有较小的向下偏差。

为了简洁起见，我尝试不介绍贝叶斯统计信息的详细信息，但是如果您对此感兴趣，那就是开始查找的地方。

— 悬崖AB
source

2

（+1）但是，如果我仅使用这些先验是因为它们给出了良好的预测-的确，我可能已经为此目的对它们进行了调整-那么我对MAP估计或后验分布怎么看？（当然，如果我在查看数据之前先引出先验来表示有关参数的知识，我便确切知道该对它们做些什么。）

— Scortchi-恢复Monica

1

@Scortchi：这是一个很好的观点：使用交叉验证来选择惩罚会使您完全脱离经典的贝叶斯框架（据我所知）。用CV建立模型以选择正则化参数不会与此答案相吻合，而是使用根据专家信息选择的具有固定惩罚的正则化将是不正确的。

— 悬崖AB

2

提醒您：只有先检查并报告了所有潜在系数的后验者，先前的+ MCMC方法才会给出有效的结果。否则，我们处于选择性推理环境中，大多数幼稚的推理方法将无效。

— user3903581

1

（+1）个好答案！但是，我认为有必要澄清以下句子：“但是大多数贝叶斯算法不使用MAP估计，而是使用MCMC算法从后验分布中采样！” 似乎您要说的是，大多数贝叶斯人在选择估计量时都使用了后验。要查看该问题，请注意，可以从样本中为后验分布进行MAP估计。

— user795305

8

使用岭型罚分和套索型罚分进行估计之间存在主要区别。岭型估计量倾向于将所有回归系数都缩小到零并且有偏差，但是由于它们不会将任何变量都缩小到正好为零，因此易于获得渐近分布。在随后进行假设检验时，岭估计的偏差可能会成问题，但我不是专家。另一方面，套索/弹性网类型的惩罚将许多回归系数缩小为零，因此可以视为模型选择技术。在基于数据选择的模型上进行推理的问题通常称为选择推理问题或选择后推理。近年来，该领域取得了许多发展。

在模型选择之后执行推理的主要问题是选择会截断样本空间。作为一个简单的例子，假设我们观察和只要估计如果我们有证据表明它是大于零。然后，我们估计如果对于某些预先指定的阈值。在这种情况下，我们仅在绝对值大于观察，因此不再是正常的，而是被截断的正常。 $y\sim N(\mu,1)$ $\mu$ $\mu$ $|y| > c >0$ $c$ $y$ $c$ $y$

类似地，套索（或弹性网）以确保已选择选定模型的方式约束样本空间。这种截断更加复杂，但是可以通过分析来描述。

基于这一见解，可以根据数据的截断分布执行推理，以获得有效的测试统计信息。有关置信区间和检验统计信息，请参阅Lee等人的工作：http : //projecteuclid.org/euclid.aos/1460381681

他们的方法在R包selectionInference中实现。

选择模型后的最佳估计（和测试）在（针对套索）中进行了讨论：https : //arxiv.org/abs/1705.09417

及其（远远不够全面的）软件包可在以下网址获得：https： //github.com/ammeir2/selectiveMLE

— 用户名
source

4

如果您尝试基于“哪些预测变量具有统计意义”来使用回归进行推断，我会特别推荐LASSO，但并不是出于您可能期望的原因。

实际上，模型中的预测变量趋于相关。即使没有实质的多重共线性，在一组相关预测变量中，回归对“重要”预测变量的选择也可能因样本而异。

所以是的，继续进行LASSO进行回归。然后，对原始数据中的多个引导样本（几百个左右）重复完整的模型构建过程（包括用于选择LASSO惩罚的交叉验证）。了解以这种方式选择的一组“重要”预测变量的可变性。

除非您的预测变量彼此高度正交，否则此过程应使您在解释回归中的p值时要三思而后行，其中各个预测变量“非常”重要。

— 教育部
source

1

+1我同意所写的所有内容，非常实用的答案，但是为什么不使用弹性网代替LASSO？（考虑到OP也提到了这一点）岭正则化将更显着地控制预测变量之间的相关性。

— usεr11852恢复单胞菌说，

实际上，在通过套索OR弹性网选择的模型中，可以计算有效的p值，估计值和置信区间，只需要正确完成即可。

— user3903581

@ user3903581我毫不怀疑可以得到有效的常压LASSO p值，从某种意义上说，一个真正的零假设将导致如此大的系数，小于重复样本的5％。问题在于，过于频繁地尝试将因果推论仅归因于因此被认为是“重要的”预测因素，而没有考虑相关预测因素引起的问题。

— EdM