偏差方差折衷的直观解释?


Answers:


24

想象一下一些2D数据(假设是高中生的身高与体重)在一对轴上绘制。

现在,假设您通过一条直线。这条线当然代表一组预测值,其统计差异为零。但是偏差(可能)很高-即,它与数据的拟合度不高。

接下来,假设您使用高阶多项式样条对数据进行建模。您对拟合不满意,因此您增加了多项式次数,直到拟合提高(实际上,它将达到任意精度)。现在,您的情况下偏差趋向于零,但方差很大。

请注意,偏差-方差的折衷并未描述比例关系-即,如果您绘制偏差与方差的关系图,则不一定会看到直线通过原点的斜率为-1。在上面的多项式样条曲线示例中,几乎可以肯定的是,减小次数所增加的方差远小于减小偏差的方差。

偏差方差的权衡也嵌入平方和误差函数中。下面,我重写(但未更改)该方程式的通常形式以强调这一点:

替代文字

在右侧,有三个术语:第一个只是不可减少的误差(数据本身的方差);第二个则是误差。这是我们无法控制的,因此请忽略它。的第二项是偏置的平方 ; 和第三方差。很容易看出,当一个上升而另一个下降时,它们不能在同一方向上一起变化。换句话说,您可以认为最小二乘回归是(隐式地)从候选模型中找到偏差和方差的最佳组合。


8
我在理解方程式时遇到麻烦;我找不到任何理由来证明这一点。即使是基本单位分析也可以识别问题。假设以秒差距,并测量X在DRAM中,例如,使˚F及其估计(是什么在小点˚F手段?)也在秒差距。然后lhs和σ 2是平方秒差距; rhs的中间项是parsec(f x )与pars / dram 之间的差的平方(由于x的除法);rhs的最后一项是每dram的平方秒差距。将这些条款中的任何一项相互补充是无效的!ÿXFFσ2FXX
whuber

等式很好(分子中的小希腊字母不是 “ x”,而是“ kappa”)。尝试以下操作:从您熟悉的SSE公式开始,仅需执行几个步骤,便可以入门。
doug 2010年

在这种情况下,“ kappa”是什么?

我是菜鸟 您能帮助我直观地了解为什么在答案的第一部分中说拟合多项式样条会导致方差增加吗?
罗希特·邦加

3
一个简单的例子:y = a + b x + e(rror)。如果我为此设置一个常数,则偏差= b x,方差= var(e)+我的估计值在真实值附近的方差。如果我在模型中添加一项b * x,偏差到处都是零,但现在方差包括我对b以及a的估计值的误差和e的方差的影响,因此将高于第一个方差。案件。因此,在减少偏见和增加方差之间进行权衡,偏倚是通过减少应该在模​​型中添加的项而获得的,而增加的方差是通过估计那些项并可能添加不相关的项而获得的。
jbowman 2011年

25

假设您正在考虑灾难性的健康保险,那么生病的可能性为1%,这将花费一百万美元。因此,预期的生病成本为10,000美元。想要获利的保险公司将向您收取15,000的保单费用。

购买该保险单给您的预期费用为15,000,方差为0,但可以认为是有偏差的,因为它比实际生病的预期费用高5,000。

不购买该保单的预期成本为10,000,这是无偏见的,因为它等于生病的实际预期成本,但差异很大。这里的权衡是在始终错误但永远不会出错的方法与平均正确但变化更大的方法之间。


15

我强烈建议您看一下Yaser Abu-Mostafa的Caltech ML课程,第8讲(Bias-Variance Tradeoff)。概述如下:

假设您正在尝试学习正弦函数:

替代文字

我们的训练集仅包含2个数据点。

让我们尝试用两个模型做到这一点:h 1x = a x + bH0X=bH1个X=一种X+b

H0X=b

在此处输入图片说明

H1个X=一种X+b

在此处输入图片说明

H0H1个H0H1个H0H1个H0H1个

在此处输入图片说明


如果您看一下成本函数相对于训练集的大小的演变(来自Coursera的数据-Andrew Ng的机器学习,:):

高偏见:

在此处输入图片说明

高差异:

在此处输入图片说明


H1个d一世一种^一世b^一世X0一种^一世b^一世ÿ^0ÿ^0一种^b^Xÿ^

您的正弦函数是反相XP
迭戈

1
这似乎使您似乎是指不存在的图(可能是“替代文字”)的b / c混淆。
gung-恢复莫妮卡

@gung已修复,感谢您指出。ImageShack关闭免费帐户并删除图像。并且Stack Exchange没有采取适当的措施。相关:禁止ImageShack图像,因为它们正在将旧的URL用于广告宣传(请支持该禁令);对我来说,在所有Stack Exchange网站上下载所有问题和答案的最简单方法是什么?(我很高兴获得了备份;请推动StackExchange提供更好的工具来备份内容)
Franck Dernoncourt

感谢您分享视频链接,它很好地解释了我的期望,现在可以理解您的答案
Espoir Murhabazi

13

我通常会想到这两张图片:

首先,偏差和方差的含义:

了解偏见和差异

想象一下,红牛眼区域的中心是我们试图预测的目标随机变量的真实平均值,红色区域表示该变量的方差分布。每次我们收集一组样本观察值并预测此变量的值时,都会绘制一个蓝点。我们正确地预测了蓝点是否落在红色区域内。换句话说,偏差是对预测的蓝点与真实的红色区域的距离的度量,直觉上这是一个错误。方差是我们的预测有多分散。

现在,这里的权衡是:

偏差和方差之间的权衡

当我们尝试减少一个参数(偏差或方差)时,另一个参数增加。但是,在偏差不太大和方差不太大之间存在一个最佳点,从长远来看,它产生最小的预测误差。

这些图片来自http://scott.fortmann-roe.com/docs/BiasVariance.html。查看有关线性回归和K近邻的更多信息


第一个数字看起来更像是精度还是精度?
KingBoomie's

0

这是一个非常简单的解释。假设您有一个点{x_i,y_i}的散点图,这些点是从某种分布中采样的。您要适合一些模型。您可以选择线性曲线或高阶多项式曲线或其他东西。无论您选择什么,都将用于预测一组{x_i}点的新y值。我们称这些为验证集。假设您也知道它们的真实{y_i}值,并且我们正在使用这些值来测试模型。

预测值将与实际值不同。我们可以测量它们差异的性质。让我们只考虑一个验证点。将其称为x_v并选择一些模型。让我们通过使用100个不同的随机样本来训练模型,对该验证点进行一组预测。因此,我们将获得100 y值。这些值的平均值与真实值之间的差称为偏差。分布的方差就是方差。

根据我们使用的模型,我们可以在这两者之间进行权衡。让我们考虑两个极端。最低方差模型是完全忽略数据的模型。假设我们只是预测每个x为42。该模型在每个点的不同训练样本之间的差异为零。然而,这显然是有偏见的。偏差仅为42-y_v。

另一个极端是,我们可以选择一种尽可能适合的模型。例如,将100度多项式拟合到100个数据点。或者,在最近的邻居之间线性插值。这具有低偏差。为什么?因为对于任何随机样本,x_v的相邻点都会大幅度波动,但是它们插值较高的频率与插值较低的频率几乎相同。因此,平均而言,在整个样本中,它们将抵消,因此偏差将非常低,除非真实曲线具有大量高频变化。

但是,这些过拟合模型在随机样本上具有较大的方差,因为它们没有使数据平滑。插值模型仅使用两个数据点来预测中间一个,因此会产生大量噪声。

注意,偏置是在单个点上测量的。是正数还是负数都没有关系。对于任何给定的x仍然是偏差。在所有x值上平均的偏差可能很小,但这并不能使其没有偏差。

再举一个例子。假设您正在尝试预测美国某些地点的温度。假设您有10,000个训练点。同样,您可以通过简单地通过返回平均值来做一个低方差模型。但这在佛罗里达州将偏低,在阿拉斯加州将偏高。如果您使用每个州的平均值,那会更好。但是即使那样,您也会在冬季偏向高端,在夏季偏向低端。因此,现在您将月份包括在模型中。但是在死亡谷和沙斯塔山,您仍然会偏低。因此,现在您进入了粒度的邮政编码级别。但是最终,如果您继续这样做以减少偏差,则会用完数据点。也许对于给定的邮政编码和月份,您只有一个数据点。显然,这将造成很多差异。因此,您会发现使用更复杂的模型可以降低偏差,但会降低方差。

因此,您会看到一个权衡。较平滑的模型在训练样本之间的方差较小,但也无法捕获曲线的真实形状。较不平滑的模型可以更好地捕获曲线,但会增加噪声。中间的某个地方是Goldilocks模型,可以在两者之间进行折衷。


0

想象一下,是否可以针对不同的训练数据集重复进行模型构建任务,即我们每次都针对不同的数据集训练一个新模型(如下图所示)。如果我们固定测试数据点并在该点上评估模型预测,则由于模型生成过程中的随机性,预测将有所不同。从下图可以看出,P_1,P_2,…,P_n是不同的预测并且也是随机的。 在此处输入图片说明

让预测的平均值为-

在此处输入图片说明

偏差误差是由于这些预测的平均值与正确值之间的差异所致。 在此处输入图片说明

方差误差不过是这些预测中的方差,即这些预测的变化程度。 在此处输入图片说明

这是偏差和方差误差背后的直觉。

有关详细说明,请访问偏差方差折衷后的访问权限直觉

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.