偏差方差分解


13

Bishop的模式识别和机器学习的 3.2节中,他讨论了偏差方差分解,指出对于平方损失函数,预期损失可以分解为平方偏差项(它描述了平均预测与真实预测之间的距离。模型),方差项(描述了平均值周围的预测范围)和噪声项(给出了数据的固有噪声)。

  1. 可以使用除平方损失以外的损失函数执行偏差方差分解吗?
  2. 对于给定的模型数据集,是否有多个模型的预期损失在所有模型中均是最小的,如果是这样,是否意味着可能会有不同的偏差和方差组合产生相同的最小预期损失?
  3. 如果模型涉及正则化,则偏差,方差和正则化系数之间是否存在数学关系?λ
  4. 如果您不知道真实的模型,如何计算偏差?
  5. 在某些情况下,将偏差或方差最小化而不是预期损失(偏差和方差的平方和)更有意义吗?

Answers:


3

...预期的[平方误差]损失可以分解为平方偏差项(描述平均预测与真实模型之间的距离),方差项(描述预测在平均值附近的分布)和噪声项(给出数据的固有噪声)。

当查看平方误差损失分解 我只看到两个术语:一个用于偏差,另一个用于估计器或预测器方差。预期损耗中没有额外的噪声项。应该指出的是,变异性是的变异性,而不是样本本身的变异性。δ

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ X 1 nδ(X1:n)δ(X1:n)
  1. 可以使用除平方损失以外的损失函数执行偏差方差分解吗?

我对偏差平方和方差分解的平方(以及我的教授方式)的解释是,这是毕达哥拉斯定理的统计等价物,即,估计量与某个集合内某个点之间的平方距离是平方距离的总和估计值和集合之间的距离,加上集合上正交投影与集合内点之间的平方距离。对于给定的模型数据集,基于n的距离的任何损失都存在一个以上的模型,其预期损失在所有模型中都是最小的,如果是这样,这是否意味着可能存在偏差和方差的不同组合,从而产生了正交投影的最小期望损失相同,即内积,即本质上为希尔伯特空间,满足了这种分解。

  1. 对于给定的模型数据集,是否有多个模型的预期损失在所有模型中均是最小的,如果是这样,是否意味着可能会有不同的偏差和方差组合产生相同的最小预期损失?

问题尚不清楚:如果至少用模型来表示 那么有很多示例具有恒定预期损失(或风险)的统计模型和相关决策。以正常均值的MLE为例。

minθEθ[(θδ(X1:n))2]
  1. 如果您不知道真实的模型,如何计算偏差?

在一般意义上,偏差是假设模型中的真实模型与最接近模型之间的距离。如果真实模型未知,则可以通过自举确定偏差。

  1. 在某些情况下,将偏差或方差最小化而不是预期损失(偏差和方差的平方和)更有意义吗?

考虑其他损失函数时,如 将推为零会将大部分评估置于偏见上,而将推至无穷大则会切换专注于差异。

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα

OP所指的噪声项是由于以下事实:估计器不是针对参数而是针对模型的函数,其中(独立)噪声假定具有零均值和方差。在先减去再减去。,则得出上述分解fY=f(X)+ϵϵσϵf(X)E[f^(X)]E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)
Miguel

这是假设独立于,这似乎并不现实。f^ϵ
西安

嗯,你当然是对的。但是我认为这个问题是我草率推导的一个伪影。检查Hastie&Tibshirani的ESLII第223页
米格尔,

@Miguel:实际上,我们假定独立于X,而不是。我个人认为ESL(以及许多其他语言)的推导并不严格,因此令人困惑。Mostafa教授在“从数据中学习”中的派生应该是您所寻找的,或者在此岗位中:stats.stackexchange.com/questions/164378/…–ϵf^
SiXUlm,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.