收缩为什么起作用？

为了解决模型选择的问题，许多方法（LASSO，岭回归等）会将预测变量的系数缩小为零。我正在寻找一个直观的解释，为什么这会提高预测能力。如果变量的真实影响实际上很大，为什么不缩小参数会导致更糟的预测呢？

粗略地说，有三种不同的预测误差来源：

您模型的偏见
模型的方差
无法解释的方差

我们无法对第3点做任何事情（除了尝试估计无法解释的方差并将其合并到我们的预测密度和预测间隔中）。剩下1和2。

如果您实际上拥有“正确的”模型，那么说，OLS参数估计将是无偏的，并且在所有无偏（线性）估计量（它们为BLUE）中具有最小的方差。OLS模型的预测将是最佳线性无偏预测（BLUP）。听起来不错。

但是，事实证明，尽管我们拥有无偏的预测，并且所有无偏的预测之间的方差很小，但方差仍然可能很大。更重要的是，有时我们可以引入“少许”偏差，同时节省“大量”的方差-通过权衡正确，与无偏的（较低方差）模型相比，我们可以得到较低的预测误差方差较大）。这就是所谓的“偏差方差折衷”，这个问题及其答案是有启发性的：什么时候有偏估计比无偏估计更合适？

像套索，山脊回归，弹性网等正则化正是这样做的。他们将模型拉向零。（贝叶斯方法是相似的-他们将模型推向先验模型。）因此，正规化模型与非正规化模型相比将有偏差，但方差也较小。如果选择正则化权限，则结果将是误差较小的预测。

如果您搜索“偏差方差折衷正则化”或类似方法，您会有所思考。例如，此演示非常有用。

编辑：变形虫很正确地指出，我正努力地解释为什么正则化能产生较低的模型和预测方差。考虑具有大正则化参数的套索模型。如果，您的套索参数估计值将全部缩小为零。固定参数值零具有零变化。（这并不是完全正确的，因为的阈值将被缩小为零，取决于您的数据和模型，但是您给定的模型和数据可以找到 $\lambda$ $\lambda\to\infty$ $\lambda$ $\lambda$ 这样模型就是零模型始终保持量词笔直。）但是，零模型当然也会有很大的偏差。毕竟，它并不关心实际的观察结果。

这同样适用于正则化参数的“并非所有”极值：较小的值将产生未正规化的参数估计值，其偏倚性较小（如果您使用“正确”模型，则不会偏见），但偏高方差。他们将根据您的实际观察“跳来跳去”。正则化较高值将越来越“约束”您的参数估计。这就是为什么这些方法具有“套索”或“弹性网”之类的名称的原因：它们限制了参数自由浮动和跟踪数据的自由。 $\lambda$

（我正在为此写一些论文，希望可以很容易地获得。一旦有可用链接，我将添加一个链接。）

— S. Kolassa-恢复莫妮卡
source

难题的关键似乎是：收缩方法为何减少了方差？（他们引入一些偏见或多或少是显而易见的。）您只需声明他们确实有过；您能为此提供一些直觉吗？

— 变形虫说莫妮卡（

@Stephan Kolassa因此，添加考虑到系数大小的惩罚项会增加一些偏差，但会减少可变性，因为它会惩罚较大的系数，与较小的系数相比，变异性通常更大。那是对的吗？然后，最终我们不必太在乎为任何特定系数获取“正确”值，我们只是对模型的整体预测能力感兴趣？

— aspiringstatistician

@aspiringstatistician：您的第二句话就在商标上。（回想一下George Box关于“错误但有用的”模型的信息。）我不必担心大型参数估计是否比小型参数减少更多。首先，这将取决于标准化。其次，如果您对较大的参数值进行了很好的估计（即，误差很低），那么它们不一定会缩小很多。正则化“倾向于”缩小那些定义不正确的参数，即具有高方差的参数。

— S. Kolassa-恢复莫妮卡

+1。祝你好运！@aspiringstatistician：关于收缩的很好的观察结果与获得正确的模型无关；这是完全正确的（并且值得考虑）：正确指定的模型比正常化的和“不太真实的”模型具有更差的预测能力（有关示例，请参阅本文第307页的附录）。

— 变形虫说恢复莫妮卡

+1。只是想补充一点，尽管问题是关于正则化模型背后的直觉，但更不用说这些模型的贝叶斯派生了，这有点不完整。例如，在将岭回归与简单MLE进行比较时，在大多数应用中，我自然而然地想到从正态分布中获得的效果，而不是均匀（不正确）的分布。因此，将这两种技术都视为MAP估计的特例，就清楚了为什么要选择岭回归。

— jlimahaverford

只是为了给@Kolassa好的答案添加些什么，整个收缩率估计问题都与Stein的悖论联系在一起。对于多元过程，样本平均值的向量是不允许的。换句话说，对于某些参数值，存在一个具有较低预期风险的估计量。斯坦提出了一个收缩率估算器作为例子。因此，我们正在处理维数的诅咒，因为当您只有1个或2个自变量时，收缩对您没有帮助。 $p \geq 3$

阅读此答案以获取更多信息。显然，斯坦因悖论与一个众所周知的定理有关，即3维或3维以上的Browian运动过程是非递归的（遍及整个地方而不返回原点），而1维和2维Brownian是递归的。

Stein的悖论不管您向哪个方向缩小都成立，尽管在实践中，如果向真实参数值方向缩小，效果会更好。贝叶斯主义者就是这样做的。他们认为他们知道真正的参数在哪里，并且朝着它缩小。然后他们声称斯坦因证实了他们的存在。

之所以称为悖论，恰恰是因为它确实挑战了我们的直觉。但是，如果考虑布朗运动，则使3D布朗运动返回原点的唯一方法是在台阶上施加阻尼惩罚。收缩估计器还对估计值施加某种阻尼器（减少方差），这就是它起作用的原因。

— ci属
source

您对斯坦因悖论与布朗过程之间的联系有参考吗？

— kjetil b halvorsen

请点击“更多阅读此答案”下的链接。在该响应中有一个链接指向建立连接的论文。

— Placidia

完整的类定理可以接受贝叶斯估计器：它与JS估计器没有直接关系。但是，JS支配样本均值的结果确实使人们对研究贝叶斯估计量更感兴趣。（我反对贝叶斯

— 主义者