线性回归中是否存在偏差方差折衷的图形表示?


18

我正在停电。为我提供了以下图片,以展示线性回归背景下的偏差方差折衷:

数据的多项式模型,简单和复杂的情况

我可以看到,这两个模型都不是很好的拟合-“简单”不能理解XY关系的复杂性,而“复杂”只是过拟合,基本上是从心里学习训练数据。但是,我完全看不到这两张图片中的偏差和差异。有人可以告诉我吗?

PS:对偏差方差折衷的直观解释的答案并没有真正帮助我,如果有人可以根据上述图片提供其他方法,我将感到非常高兴。

Answers:


11

偏差方差的权衡基于均方误差的细分:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

观察偏差方差交易的一种方法是在模型拟合中使用数据集的哪些属性。对于简单模型,如果我们假设使用OLS回归拟合直线,则仅使用4个数字拟合直线:

  1. x和y之间的样本协方差
  2. x的样本方差
  3. x的样本均值
  4. y的样本均值

因此,任何导致以上相同4个数字的图形都将导致完全相同的拟合线(10点,100点,100000000点)。因此,从某种意义上讲,它对观察到的特定样品不敏感。这意味着它将被“偏置”,因为它实际上会忽略部分数据。如果那部分被忽略的数据恰好很重要,那么预测将始终是错误的。如果将使用所有数据的拟合线与通过删除一个数据点获得的拟合线进行比较,则会看到此信息。它们将趋于稳定。

现在,第二个模型将使用它可以获得的每一个数据碎片,并尽可能地拟合数据。因此,每个数据点的确切位置都很重要,因此您不能像不使用OLS那样更改训练模型就来移动训练数据。因此,该模型对您拥有的特定训练集非常敏感。如果您执行相同的一滴数据点图,则拟合模型将有很大不同。


θ^ÿ^θXÿ

ÿ^θ^

θ^b一世一种sθ^=θ-Ë[θ^],但是 θ是我们未知的吧?而且,给定数据集,我们不知道真实模型应该是什么样子,例如,数据背后的真实模型是FX=一种+bX+CX2,但我们选择线性回归模型 HX=d+ËX 拟合数据,因此出现了悖论:真正的参数是 一种bC,这是我们应该尝试估算的目标,但最终得出的估算值是 dË,然后计算或分析 b一世一种sdb一世一种sË
鳄梨

@loganecolss-这不是一个悖论,因为偏差的概念仅“局部”存在-也就是说,相对于给定的统计模型。对于以下人员存在“悖论”:1)知道“真实模型”,以及2)决定不使用它。那个人是我书中的白痴。如果您不知道“真实模型”,那么就没有问题-除非您找到了一个好的模型并决定不使用它...
概率

1
您对知道“真实模型”有种幻想-我认为这不是一个正确的问题-它更多的是“我当前的模型没有足够或太多的参数吗?”的问题。-这不取决于知道什么是“真实模型”,可以通过标准模型诊断来回答。例如,为什么您的“真实模型”是您收集的变量的函数,而不是像FXž1个ž2žķ 你不知道的地方1)什么 ž一世 值是2)其中有多少个-即您不知道 ķ
概率

5

用非数学的方式概括我所知道的内容:

  • 偏见-使用简单模型时,您的预测将是不正确的,并且会在使用该模型的任何数据集上发生。您的预测可能是错误的
  • 方差-如果您使用复杂的模型,则根据所使用的任何数据集,您将获得截然不同的预测

该页面对与您发布的图表相似的图表进行了很好的解释。(不过,我跳过了顶部,只是阅读了带有图表的部分) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (鼠标悬停会显示一个不同的示例,以防万一您没注意到!)


这是一个有趣的页面,并且有很好的插图,但是我发现它们更加令人困惑,然后有所帮助,因为(a)在回归的背景下讨论的“偏见”和“方差”似乎不是开始时定义的偏见和方差。页面和(b)尚不清楚所做出的陈述(关于偏倚和方差随参数数量的变化情况)是否正确。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.