我正在寻找关于偏差方差折衷的直观解释,无论是总体上还是特别是在线性回归的情况下。
我正在寻找关于偏差方差折衷的直观解释,无论是总体上还是特别是在线性回归的情况下。
Answers:
想象一下一些2D数据(假设是高中生的身高与体重)在一对轴上绘制。
现在,假设您通过一条直线。这条线当然代表一组预测值,其统计差异为零。但是偏差(可能)很高-即,它与数据的拟合度不高。
接下来,假设您使用高阶多项式样条对数据进行建模。您对拟合不满意,因此您增加了多项式次数,直到拟合提高(实际上,它将达到任意精度)。现在,您的情况下偏差趋向于零,但方差很大。
请注意,偏差-方差的折衷并未描述比例关系-即,如果您绘制偏差与方差的关系图,则不一定会看到直线通过原点的斜率为-1。在上面的多项式样条曲线示例中,几乎可以肯定的是,减小次数所增加的方差远小于减小偏差的方差。
偏差方差的权衡也嵌入平方和误差函数中。下面,我重写(但未更改)该方程式的通常形式以强调这一点:
在右侧,有三个术语:第一个只是不可减少的误差(数据本身的方差);第二个则是误差。这是我们无法控制的,因此请忽略它。的第二项是偏置的平方 ; 和第三是方差。很容易看出,当一个上升而另一个下降时,它们不能在同一方向上一起变化。换句话说,您可以认为最小二乘回归是(隐式地)从候选模型中找到偏差和方差的最佳组合。
我强烈建议您看一下Yaser Abu-Mostafa的Caltech ML课程,第8讲(Bias-Variance Tradeoff)。概述如下:
假设您正在尝试学习正弦函数:
我们的训练集仅包含2个数据点。
让我们尝试用两个模型做到这一点:和h 1(x )= a x + b:
如果您看一下成本函数相对于训练集的大小的演变(来自Coursera的数据-Andrew Ng的机器学习,:):
高偏见:
高差异:
我通常会想到这两张图片:
首先,偏差和方差的含义:
想象一下,红牛眼区域的中心是我们试图预测的目标随机变量的真实平均值,红色区域表示该变量的方差分布。每次我们收集一组样本观察值并预测此变量的值时,都会绘制一个蓝点。我们正确地预测了蓝点是否落在红色区域内。换句话说,偏差是对预测的蓝点与真实的红色区域的距离的度量,直觉上这是一个错误。方差是我们的预测有多分散。
现在,这里的权衡是:
当我们尝试减少一个参数(偏差或方差)时,另一个参数增加。但是,在偏差不太大和方差不太大之间存在一个最佳点,从长远来看,它产生最小的预测误差。
这些图片来自http://scott.fortmann-roe.com/docs/BiasVariance.html。查看有关线性回归和K近邻的更多信息
这是一个非常简单的解释。假设您有一个点{x_i,y_i}的散点图,这些点是从某种分布中采样的。您要适合一些模型。您可以选择线性曲线或高阶多项式曲线或其他东西。无论您选择什么,都将用于预测一组{x_i}点的新y值。我们称这些为验证集。假设您也知道它们的真实{y_i}值,并且我们正在使用这些值来测试模型。
预测值将与实际值不同。我们可以测量它们差异的性质。让我们只考虑一个验证点。将其称为x_v并选择一些模型。让我们通过使用100个不同的随机样本来训练模型,对该验证点进行一组预测。因此,我们将获得100 y值。这些值的平均值与真实值之间的差称为偏差。分布的方差就是方差。
根据我们使用的模型,我们可以在这两者之间进行权衡。让我们考虑两个极端。最低方差模型是完全忽略数据的模型。假设我们只是预测每个x为42。该模型在每个点的不同训练样本之间的差异为零。然而,这显然是有偏见的。偏差仅为42-y_v。
另一个极端是,我们可以选择一种尽可能适合的模型。例如,将100度多项式拟合到100个数据点。或者,在最近的邻居之间线性插值。这具有低偏差。为什么?因为对于任何随机样本,x_v的相邻点都会大幅度波动,但是它们插值较高的频率与插值较低的频率几乎相同。因此,平均而言,在整个样本中,它们将抵消,因此偏差将非常低,除非真实曲线具有大量高频变化。
但是,这些过拟合模型在随机样本上具有较大的方差,因为它们没有使数据平滑。插值模型仅使用两个数据点来预测中间一个,因此会产生大量噪声。
注意,偏置是在单个点上测量的。是正数还是负数都没有关系。对于任何给定的x仍然是偏差。在所有x值上平均的偏差可能很小,但这并不能使其没有偏差。
再举一个例子。假设您正在尝试预测美国某些地点的温度。假设您有10,000个训练点。同样,您可以通过简单地通过返回平均值来做一个低方差模型。但这在佛罗里达州将偏低,在阿拉斯加州将偏高。如果您使用每个州的平均值,那会更好。但是即使那样,您也会在冬季偏向高端,在夏季偏向低端。因此,现在您将月份包括在模型中。但是在死亡谷和沙斯塔山,您仍然会偏低。因此,现在您进入了粒度的邮政编码级别。但是最终,如果您继续这样做以减少偏差,则会用完数据点。也许对于给定的邮政编码和月份,您只有一个数据点。显然,这将造成很多差异。因此,您会发现使用更复杂的模型可以降低偏差,但会降低方差。
因此,您会看到一个权衡。较平滑的模型在训练样本之间的方差较小,但也无法捕获曲线的真实形状。较不平滑的模型可以更好地捕获曲线,但会增加噪声。中间的某个地方是Goldilocks模型,可以在两者之间进行折衷。