偏差方差方程的数学直觉


12

最近问了一个问题,要求在与样品均值和方差有关的基本方程式后面寻求数学解释/直觉:E[X2]=Var(X)+(E[X])2,是几何的还是其他的。

但是现在,我对表面上相似的偏差-方差折衷方程式感到好奇。

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
(选自式维基百科

对我来说,与偏差-方差折衷方程的回归有一个表面上的相似之处:三个具有平方的项,两个相加。非常毕达哥拉斯的外观。是否所有这些项目都有相似的矢量关系,包括正交性?还是有其他适用的数学解释?

我正在寻找与其他一些可能会有所启发的数学对象的数学类比。我不是在找精确精度的类比,这里已经介绍了很多。但是,如果人们可以在偏差方差折衷与更基本的均值方差关系之间给出非技术类比,那也将是巨大的。

Answers:


12

相似之处不只是表面上的。

“偏差-方差折衷”可以解释为应用于两个垂直欧几里得向量的毕达哥拉斯定理:一个的长度是标准偏差,另一个的长度是偏差。斜边的长度是均方根误差。

基本关系

作为出发点,请考虑一下该揭示性计算,该计算对于具有有限第二矩和任何实数a的任何随机变量有效。由于第二矩是有限的,因此X具有有限的均值μ = EX ,其中EX - μ = 0,因此XaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

这示出了如何之间的平均平方偏差和任何“基线”值一个与变化一个:它是一个二次函数一个具有最小在μ,其中,所述均方偏差为的方差XXaaaμX

与估计量和偏差的联系

任何估计θ是一个随机变量,因为(根据定义)是随机变量的(可测量)函数。让它扮演X在前面,并让estimand(东西θ应该估计)是θ,我们有θ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

现在让我们回到,我们已经看到有关估计量的偏倚+方差的陈述实际上是1 )的情况。这个问题寻求“与数学对象的数学类比”。通过证明平方可积分随机变量可以自然地构成一个欧几里得空间,我们可以做更多的事情。(1)(1)

数学背景

在非常普遍的意义,一个随机变量是在概率空间中的(可测量的)实值函数。平方可积的此类函数集(通常写为L 2Ω (理解给定的概率结构))几乎希尔伯特空间。 将它做成一个,我们要混为一谈任何两个随机变量XŸ不真正在整合方面有所不同:那就是,我们说XY ^等价每当(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

这是简单的检查,这是一个真正的等价关系:最重要的是,当相当于ŸŸ相当于ž,则必然X将相当于ž。因此,我们可以将所有平方可积分随机变量划分为等价类。这些类别形成集合L 2Ω 。此外,大号2继承了矢量空间的结构大号 2通过逐点加法值和逐点标量乘法的定义。在这个向量空间上,函数XYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

是一种规范,经常写成。该范数使L 2Ω 成为希尔伯特空间。 将希尔伯特空间H视为“无限维欧几里德空间”。任何有限维子空间V ^ h继承规范^ hV,与此规范,是欧氏空间:我们可以在它做欧几里德几何。||X||2L2(Ω)HVHHV

最后,我们需要一个事实,它对于概率空间(而不是一般的度量空间)来说是特殊的:因为是一个概率,所以它被(1)限制,因此常数函数ω a(对于任何固定的实数a)为具有有限范数的平方可积随机变量。P1ωaa

几何解释

考虑任何平方可积分的随机变量,它被认为是L 2Ω 中其等价类的代表。它有一个平均值μ = EX ,它(可以检查)仅取决于X的等价类。令1ω 1为常数随机变量的类别。XL2(Ω)μ=E(X)X1:ω1

1产生的欧几里德子空间 V 大号2Ω ,其尺寸为至多 2。在此子空间中, | | X | | 2 2 = EX 2 X |的平方长度。| 一种X1VL2(Ω)2||X||22=E(X2)X是常数随机变量 ω a的平方长度。 这是最基本的 X - μ 1是垂直于 1 (对 μ的一个定义是,它是这种情况的唯一数字。)关系式1 可以写成||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

这确实是恰恰勾股定理,基本上2500年前称为相同的形式。对象是与腿直角三角形的斜边X - μ 1- μ 1

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

如果您想进行数学类比,则可以使用任何可以根据欧几里得空间中直角三角形的斜边来表示的东西。斜边将代表“误差”,而支腿将代表偏差和与均值的偏差。


优秀的。因此,推理几乎与我上一个问题re 。那么这两者之间有一个类比吧?从直觉上看,偏见类似于意思。泛化是,平均值是相对于0的第一矩,而偏倚是相对于参数的真实值。听起来对吗?Var=EX2(EX)2
米奇

是的-附带条件(这是几何解释的一种补充),衡量这些事物的正确方法是根据其平方。
ub

因此,我有一个相关的问题。对于任何机器学习,我都有这两个概念:“如果增加样本量,则渐近无偏估计量的方差将变为零”和“如果增加模型复杂度,则将具有低偏差和高方差” 。因此,我可以说更多的计算能力允许更多的复杂性,这将减少偏差,但增加方差。然而,在渐近情况下,方差的这种增加将被抵消。
ARAT

@Mustafa您做出了一些强有力的假设。首先是样本是随机的(至少近似)独立的 -在ML应用程序中通常不是这种情况。关于模型复杂度增加的结论通常并不正确,部分原因是“增加复杂度”意味着您正在更改模型,这使您对估计量估计的含义以及该估计量与其估计量之间的关系产生了疑问。 。不一定随之而来的是,增加模型的复杂性通常会对偏差或方差产生可预测的影响。
whuber

4

这是一种直观地考虑准确性和方差偏差的方法。假设您正在注视目标,并且您拍摄的许多镜头都散布在目标中心附近,且没有偏差。然后,准确度仅由方差确定,当方差较小时,射手是准确的。

现在让我们考虑一个精度很高但偏差较大的情况。在这种情况下,镜头散布在远离中心的位置。某个东西弄乱了目标点,但围绕该目标点,每一次射击都接近该新目标点。射手精准但由于偏见而非常不准确。

在其他情况下,由于偏差小和精度高,因此拍摄的照片准确。我们想要的是没有偏差,小方差或具有小偏差的小方差。在某些统计问题中,不能同时兼有。因此,MSE成为您要使用的精度的度量标准,以抵消方差偏差,而将MSE减至最小应该是目标。


出色的直观描述,再到偏差方差和精度精确类比。我也在寻找像毕达哥拉斯定理这样的数学解释。
米奇

1
我没有专心讨论这个问题,因为这是另一篇讨论几何解释的文章所介绍的。我会为您找到链接。
Michael R. Chernick

@Mitch在“简历偏差权衡”中搜索,在简历网站上产生了134个匹配。我还没有找到勾股定理,但是这个真的很好,并且有我在本文中讨论的目标的图片。“偏差方差折衷的直观解释”。
Michael R. Chernick

我发现了一个I一直在寻找从2017年1月5日“直觉VAR(X)= E的(几何的或其他)[ ] - (ë [ X ] 2)。X2E[X])2
迈克尔R. Chernick

@Mitch我没有意识到您发布了我正在寻找的问题。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.