Answers:
粗略地说,有三种不同的预测误差来源:
我们无法对第3点做任何事情(除了尝试估计无法解释的方差并将其合并到我们的预测密度和预测间隔中)。剩下1和2。
如果您实际上拥有“正确的”模型,那么说,OLS参数估计将是无偏的,并且在所有无偏(线性)估计量(它们为BLUE)中具有最小的方差。OLS模型的预测将是最佳线性无偏预测(BLUP)。听起来不错。
但是,事实证明,尽管我们拥有无偏的预测,并且所有无偏的预测之间的方差很小,但方差仍然可能很大。更重要的是,有时我们可以引入“少许”偏差,同时节省“大量”的方差-通过权衡正确,与无偏的(较低方差)模型相比,我们可以得到较低的预测误差方差较大)。这就是所谓的“偏差方差折衷”,这个问题及其答案是有启发性的:什么时候有偏估计比无偏估计更合适?
像套索,山脊回归,弹性网等正则化正是这样做的。他们将模型拉向零。(贝叶斯方法是相似的-他们将模型推向先验模型。)因此,正规化模型与非正规化模型相比将有偏差,但方差也较小。如果选择正则化权限,则结果将是误差较小的预测。
如果您搜索“偏差方差折衷正则化”或类似方法,您会有所思考。例如,此演示非常有用。
编辑:变形虫很正确地指出,我正努力地解释为什么正则化能产生较低的模型和预测方差。考虑具有大正则化参数的套索模型。如果,您的套索参数估计值将全部缩小为零。固定参数值零具有零变化。(这并不是完全正确的,因为的阈值将被缩小为零,取决于您的数据和模型,但是您给定的模型和数据可以找到这样模型就是零模型 始终保持量词笔直。)但是,零模型当然也会有很大的偏差。毕竟,它并不关心实际的观察结果。
这同样适用于正则化参数的“并非所有”极值:较小的值将产生未正规化的参数估计值,其偏倚性较小(如果您使用“正确”模型,则不会偏见),但偏高方差。他们将根据您的实际观察“跳来跳去”。正则化较高值将越来越“约束”您的参数估计。这就是为什么这些方法具有“套索”或“弹性网”之类的名称的原因:它们限制了参数自由浮动和跟踪数据的自由。
(我正在为此写一些论文,希望可以很容易地获得。一旦有可用链接,我将添加一个链接。)
只是为了给@Kolassa好的答案添加些什么,整个收缩率估计问题都与Stein的悖论联系在一起。对于多元过程,样本平均值的向量是不允许的。换句话说,对于某些参数值,存在一个具有较低预期风险的估计量。斯坦提出了一个收缩率估算器作为例子。因此,我们正在处理维数的诅咒,因为当您只有1个或2个自变量时,收缩对您没有帮助。
阅读此答案以获取更多信息。显然,斯坦因悖论与一个众所周知的定理有关,即3维或3维以上的Browian运动过程是非递归的(遍及整个地方而不返回原点),而1维和2维Brownian是递归的。
Stein的悖论不管您向哪个方向缩小都成立,尽管在实践中,如果向真实参数值方向缩小,效果会更好。贝叶斯主义者就是这样做的。他们认为他们知道真正的参数在哪里,并且朝着它缩小。然后他们声称斯坦因证实了他们的存在。
之所以称为悖论,恰恰是因为它确实挑战了我们的直觉。但是,如果考虑布朗运动,则使3D布朗运动返回原点的唯一方法是在台阶上施加阻尼惩罚。收缩估计器还对估计值施加某种阻尼器(减少方差),这就是它起作用的原因。