偏差方差分解:期望平方预测误差的项减去不可约误差


9

Hastie等。“统计学习的要素”(2009年)考虑了数据生成过程 其中和。Èε = 0 无功ε = σ 2 ε

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

他们对点(第223页,公式7.9)处的期望平方预测误差进行了以下偏差方差分解: 在我的自己的工作我没有指定而是取一个任意的预测(如果相关)。问题:我正在寻找 或更确切地说 的术语 错误x 0x0˚F ÿ

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Err x 0- 不可减少的误差
Bias2+Variance
Err(x0)Irreducible error.

3
这里有什么问题?
Michael R. Chernick

1
@sntx,感谢您的想法。但这听起来不对。也许是建模错误(即由于模型规格不正确和模型的不精确估计而导致的错误),但是如果没有预测生成模型(例如专家预测),那就没有意义了。
理查德·哈迪

1
@DeltaIV,那是相当不错的。但是,我认为这个词是收费的;似乎预测很糟糕,我们可以做得更好。但是,假设我们已尽力处理给定的数据。因此,我们碰巧选择了正确的模型(没有“模型偏差”),但是样本太小,无法完美地估计系数。因此,对于给定的样本量,估计方差(“模型方差”)实际上是不可减少的,而术语“可减少的误差”表明并非如此。并不是我确定我们可以提出一个更好的任期,我​​仍然想为此奋斗。
理查德·哈迪

1
@DeltaIV,好吧,我现在得到了可以简化的直觉。如果不作进一步解释(如您必须向我解释),则该术语可能仍会产生误导。您后面的建议是精确的,这确实很好,但是正如您所说的那样,它令人费解。
理查德·哈迪

1
@DeltaIV,我不想听起来像那样。这不是私人的。我的(希望有说服力的)论点在评论中。但是感谢您与我进行讨论,它会有所帮助。
理查德·哈迪

Answers:


4

我建议减少误差。这也是Gareth,Witten,Hastie和Tibshirani撰写的《统计学习入门》第2.1.1段中采用的术语,该书基本上是ESL的简化版+一些非常酷的R代码实​​验室(但事实是它们使用了attach,但是,没有人是完美的)。我将在下面列出该术语优缺点的原因。


首先,我们必须记得,我们不仅承担有均值为0,但也是独立的(见第2.6.1,ESL,2的公式2.29 第二版,12 印刷)。那么,当然,无论我们选择哪种假设类别(模型族),以及用于学习假设的样本量(估计模型),都无法从估计。这解释了为什么 被称为不可减少的错误ϵXϵXHσϵ2

通过类推,似乎很自然地定义了误差的其余部分(可减少的误差)。现在,该术语听起来有些混乱:事实上,在我们为数据生成过程所做的假设下,我们可以证明Err(x0)σϵ2

f(x)=E[Y|X=x]

因此,当且仅当(可以假定我们有一个一致的估计量)时,减少的误差才能减小到零。如果,即使在无限样本大小的限制下,我们也无法将可减少误差驱动为0。但是,它仍然是我们误差的唯一部分,可以通过更改样本大小,在我们的估计器中引入正则化(收缩)等方法来减少(即使不能消除)。换句话说,通过选择另一个在我们的模型系列中。 E[Y|X=x]HE[Y|X=x]Hf^(x)

从根本上讲,可减少的含义不是归零的y!),而是指可以减少的那部分误差,即使不一定将其减小得很小。另外,请注意,原则上,可以通过放大直到包含来将错误减少为0 。相反,由于,无论有多大,都无法减小。E [ Y | X = X ] σ 2 ε ħ ε XHE[Y|X=x]σϵ2HϵX


如果噪声是不可减少的误差,则不是不可减少的。您需要以某种方式激发这种动机,我不能自己做到这一点。
卡尔,

在2.1.1中,示例是“分析血液中的某些药物”。我在下面给出的第一个示例就是这样。在那种测定中,所谓的不可减少的测量误差不是那种。它由计数噪声(通常通过计数10000个或更多事件来减少),移液误差(几乎呈指数分布)和其他技术误差组成。为了进一步减少这些“不可减少的”误差,我建议每次采样使用三个计数管的中值。术语“不可归约”是不好的术语,请重试。
卡尔,

1
@Delta,谢谢您的回答。一个班轮的“可减少的错误”可能不是很令人信服,但是考虑到上下文和讨论,它看起来还不错!
理查德·哈迪,

nn

@DeltaV我认为可简化性是一个可疑的假设,请参见下文。
卡尔,

0

1R2ynn

为什么我不喜欢“可还原性”一词?就像可约性公理一样,它带有一种自指重言式。我同意罗素(Russell)1919年的观点:“我没有任何理由相信可还原性公理在逻辑上是必要的,这就是说在所有可能的世界中都成立。因此,逻辑是一个缺陷……一个可疑的假设。”

n=36

在此处输入图片说明

值得注意的是,随着人们在五分钟内投下第一个样本,物理性能会得到改善,因为随着时间的推移,人们将早期样本持续投递至60分钟。这表明,尽管GV最终形成了药物血浆浓度的良好模型,但在早期还有其他事情发生。

1%

在此处输入图片说明

y


确实,这就是上述分解的含义。但是您的回答最好作为注释,因为它不能解决实际的问题。还是呢?
理查德·哈迪

Bias2+Variance

再一次,您正在回答另一个问题。不幸的是,对一个错误的问题的正确答案是一个错误的答案(对自己的说明:巧合的是,我昨天正在向我的本科生解释这个问题)。我不是在问这个表达式有多有意义(对于阅读过ESL教科书和/或从事过应用机器学习的人来说,这是有意义的),我是在问一个合适的术语。问题是肯定的,不是规范的。这很简单,也很具体。
理查德·哈迪

@RichardHardy如果没有物理学,这个问题对我来说很难理解。更改了我的答案,请参见上面的注册错误。
卡尔,

1
您可以这样做,以估计过程,是的,这是可减少的错误部分。但是,当您预测包括抛硬币的具体事件时,您将无法减少与错误预测抛硬币结果相关的错误。这就是不可减少的错误。有趣的是:在一个纯粹确定性的世界中,从定义上讲不会有无法避免的错误,因此,如果您对世界的看法完全是确定性的,那么我可能会理解您的意思。但是,“统计学习的要素”和一般的统计数据是随机的。
理查德·哈迪,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.