线性回归偏差方差分解中的方差项


9

在“统计学习的要素”中,线性模型的偏差方差分解的表达式为 其中是实际目标函数,是模型和是对线性估计。˚F X 0σ 2 ε ÿ = ˚F X + ε

E[R[RX0=σϵ2+Ë[FX0-ËF^X0]2+||HX0||2σϵ2
FX0σϵ2y=f(x)+ϵf^(x)f(x)

方差项在这里令我感到困扰,因为等式暗示如果目标无噪声,即,方差将为零但这对我来说没有意义,因为即使噪声为零,对于不同的训练集,我仍然可以获得不同的估计值,这意味着方差不为零。σϵ2=0.f^(x0)

例如,假设目标函数是二次方,并且训练数据包含从该二次方随机采样的两个点;显然,每次从二次目标中随机采样两个点时,我都会得到不同的线性拟合。那么方差如何为零?f(x0)

谁能帮助我找出我对偏差方差分解的理解中存在的问题?

Answers:


6

在偏见和方差的处理上总是潜伏着一个微妙的地方,在学习时要特别注意它。如果您在该章的某个部分中重新阅读了ESL的前几个词,那么作者会对此表示敬意。

关于错误率估计的讨论可能会令人困惑,因为我们必须弄清楚哪些数量是固定的,哪些数量是随机的

细微之处是固定的,是随机的

在线性回归的传统处理中,数据被视为固定且已知。如果您遵循ESL中的论点,您会发现作者也在做这个假设。在这些假设下,您的示例不起作用,因为给定Xy的条件分布中唯一剩余的随机性来源。如果有帮助,你可能需要更换符号é [R [R X 0,在你的心中ë [R [R X 0 | X XyXErr(x0)Err(x0X)

这并不是说您的关注是无效的,训练数据的选择确实确实在我们的模型算法中引入了随机性,并且勤奋的从业人员将尝试量化这种随机性对他们的结果的影响,这确实是正确的。实际上,您可以很清楚地看到,引导和交叉验证的常见做法将这些随机性源明确地纳入了它们的推论。

XX


XY|X(X,Y)E=EXEY|XVar(f^(x0))=EX[||h(x0)||2σϵ2]σϵ2

我的猜测是作者假设模型已正确指定,即包括所有且仅包含具有正确转换的相关预测变量。我不得不回到书上,而不是依靠我的记忆来确认。
马修·德鲁里

如果“正确指定”是指目标函数确实是线性的,那么我理解零噪声将意味着零偏差。但是事实证明,即使目标函数不是线性的,我们也可以得到完全相同的方差表达式。
Abhinav Gupta

1
的确如此,但是在那种情况下“正确指定”将意味着您正在使用线性回归来拟合包含正确预测变量的模型。因此,如果真正的关系是二次关系,那么您将假设模型包括二次项。
马修·德鲁里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.