15

我正在尝试了解偏差-方差折衷，估算器的偏差与模型的偏差之间的关系以及估算器的方差与模型的方差之间的关系。

我得出以下结论：

当我们忽略估计量的偏差时，即当我们仅旨在最小化模型偏差而不考虑模型的方差时，我们倾向于过度拟合数据（换句话说，我们仅旨在最小化估计量的方差而不考虑估计量的偏差）
反之亦然，当我们忽略估计量的方差时，即当我们仅旨在最小化模型方差而忽略模型的偏差时，我们倾向于使数据拟合不足（换句话说，我们仅旨在最小化模型的偏差）。估算器，也无需考虑估算器的方差）。

我的结论正确吗？

— 约翰·M
source

约翰，我想您会喜欢阅读Tal Yarkoni和Jacob Westfall的这篇文章-它提供了偏差方差折衷的直观解释：jakewestfall.org/publications/…。

— Isabella Ghement

22

好吧，有点。如前所述，您将意图归因于科学家以最小化偏差或方差。实际上，您不能显式观察模型的偏差或方差（如果可以的话，您将知道真实的信号，在这种情况下，您将不需要模型）。通常，您只能在特定数据集上观察模型的错误率，并且您尝试使用各种创意技术来估计样本外错误率。

现在你也知道，至少在理论上，这个误差率可以分解为偏差和方差方面，但你不能直接观察到在任何特定的具体情况，这种平衡。因此，我稍微重申一下您的观察结果：

当偏差项占抽样误差的大部分时，模型对数据就不适合。
当方差项占样本外误差的大部分时，模型对数据过度拟合。

通常，没有确定的确切方法，因为您永远无法真正观察到模型偏差。尽管如此，仍有多种行为模式表明处于一种或另一种情况：

相对于训练数据集，过拟合模型在拟合数据上的拟合优度往往差得多。
欠拟合模型在测试与训练数据集上的拟合性能往往具有相似的优势。

这些是通过模型复杂性在著名的错误率图中显示的模式，该模式来自《统计学习的要素》：

模型复杂度

通常，这些图覆盖有偏差和方差曲线。我是从这个不错的博览会上摘下来的：

在此处输入图片说明

但是，非常重要的是要意识到，在任何现实情况下，您都从未真正看到这些附加曲线。

— 马修·德鲁里
source

4

使用玩具示例说明偏差-方差权衡

正如@Matthew Drury所指出的，在现实情况下，您看不到最后一张图，但是以下玩具示例可能为那些认为有帮助的人提供视觉解释和直觉。

数据集和假设

$Y$

$Y = sin(\pi x - 0.5) + \epsilon$ $\epsilon \sim Uniform(-0.5,0.5)$
$Y = f(x) + \epsilon$

$x$ $Y$ $Var(Y) = Var(\epsilon) = \frac{1}{12}$

$\hat f(x) = \beta_0 + \beta_1x + \beta_1 x^2 + ... + \beta_px^p$

拟合各种多项式模型

直观上，您会期望直线曲线表现不佳，因为数据集显然是非线性的。同样，拟合非常高的多项式可能会过多。直觉反映在下图中，该图显示了各种模型及其对应的火车和测试数据均方误差。

上图适用于单个火车/测试区，但是我们如何知道它是否可以推广？

估计预期的训练并测试MSE

这里我们有很多选择，但是一种方法是在训练/测试之间随机分割数据-使模型适合给定的分割，然后重复多次此实验。可以绘制所得的MSE，平均值是预期误差的估计值。

有趣的是，测试MSE随数据的不同训练/测试拆分而剧烈波动。但是，对足够多的实验取平均值可以使我们更有信心。

请注意显示方差的灰色虚线 $Y$ 了开始时计算。看来，平均的测试MSE是永远不会低于此值

偏差-方差分解

如前所述处所述，MSE可以分为3个主要组成部分：

Ë [（ ÿ - \hat{F} ）^{2}] = σ_{ϵ}^{2} + 乙 一世 一种 s^{2} [\hat{F}] + V 一种 [R [\hat{F}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

Ë [（ ÿ - \hat{F} ）^{2}] = σ_{ϵ}^{2} + {[F - Ë [\hat{F}]]}^{2} + Ë {[\hat{F} - Ë [\hat{F}]]}^{2}

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2$

在我们的玩具盒中：

$f$ 从初始数据集中可以知道
$\sigma^2_\epsilon$ $\epsilon$
$E[\hat f]$
$\hat f$ 对应于浅色线
$E\left[ \hat f - E[ \hat f] \right]^2$ 可以通过取平均来估计

提供以下关系

注意：上图使用训练数据拟合模型，然后计算train + test的MSE。

— Xavier Bourret Sicotte
source

关于偏差方差权衡的问题

使用玩具示例说明偏差-方差权衡

数据集和假设

拟合各种多项式模型

估计预期的训练并测试MSE

偏差-方差分解