为什么要对差值求平方而不是取标准偏差的绝对值?


408

在标准差的定义中,为什么我们必须对均值之差取平方才能得到均值(E),并在最后取平方根?我们难道不能只是简单地获取差的绝对值,而获得这些差的期望值(均值),这也不能显示数据的变化吗?该数字将与平方方法不同(绝对值方法将更小),但仍应显示数据的传播。有人知道为什么我们将这种方形方法作为标准吗?

标准偏差的定义:

σ=E[(Xμ)2].

我们不能只是取绝对值而仍然是一个好的度量吗?

σ=E[|Xμ|]


25
从某种意义上说,您提出的测量被广泛用于误差(模型质量)分析的情况,因此被称为MAE,“平均绝对误差”。

8
在接受答案时,对我来说重要的是,我们要注意答案是否是循环的。正态分布基于对平方误差项的方差的这些度量,但这本身并不是在(XM |)上使用(XM)^ 2的理由。
russellpierce

2
您是否认为标准一词意味着今天是标准?这不是在问为什么主成分是“主要”而不是次要的吗?
罗宾吉拉德

51
到目前为止提供的每个答案都是循环的。他们关注的是数学计算的简便性(很好,但绝不是基础)或高斯(正态)分布和OLS的属性。大约1800高斯以最小二乘和方差开始,并从那些正态分布中得出 -就是圆度。尚未得到任何答案的真正根本原因是中央极限定理中方差所起的独特作用。另一个是决策理论中最小化二次损失的重要性。
ub

2
Taleb 在Edge.org上提出了退出标准偏差并使用平均绝对偏差的理由
Alex Holcombe

Answers:


188

如果标准差的目标是总结对称数据集的范围(即,通常每个数据距均值有多远),那么我们需要一种定义如何测量范围的好方法。

平方的好处包括:

  • 平方总是给出正值,因此总和不会为零。
  • 平方强调较大的差异-事实证明它既好又坏(请考虑异常值所带来的影响)。

但是,平方的确存在一个衡量价差的问题,那就是所有单位都是平方的,而我们可能更希望价差与原始数据的单位相同(想想平方磅,平方美元或苹果平方)。 。因此,平方根允许我们返回到原始单位。

我想您可以说,绝对差异为数据的传播分配了相等的权重,而平方则强调了极端。从技术上讲,正如其他人指出的那样,平方使代数更易于使用,并提供了绝对方法不具备的特性(例如,方差等于分布平方的期望值减去平方的期望值)。分布的均值)

不过请务必注意,如果这是您希望查看“点差”的方式的偏爱,则没有理由不取绝对差额(有些人认为5%是值的神奇阈值,实际上这取决于情况)。实际上,实际上有几种竞争性方法可用来衡量点差。p

我的观点是使用平方值,因为我想考虑它与统计的毕达哥拉斯定理的关系: ……这还帮助我记住,在使用独立随机变量时,方差增加,标准差不增加。但这只是我个人的主观偏爱,我通常只将其用作记忆帮助,请随时忽略此段。c=a2+b2

可以在这里阅读更深入的分析。


72
“平方总是给出正值,所以总和不会为零。” 绝对值也是如此。
罗宾吉拉德

32
@robin girard:没错,因此我为什么要在此之前加上“平方的好处包括”。我并不是在该语句中暗示任何有关绝对值的内容。不过,我同意你的意思,如果其他人不清楚,我会考虑删除/改写它。
托尼·布雷

15
稳健统计的许多领域都试图处理对异常值的过分敏感性,这是因为选择方差作为衡量数据分布(技术上的规模或分散性)的结果。en.wikipedia.org/wiki/Robust_statistics
Thylacoleo 2010年

5
答案中链接的文章是上帝赐予的。
traggatmot 2015年

1
我认为关于毕达哥拉斯的那一段是正确的。您可以将误差视为维度中的向量,其中为样本数。每个维度的大小是与该样本的平均值之差。该矢量的长度(毕达哥拉斯)是平方和的平方根,即标准差。nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

平方差具有更好的数学性质;它是连续可微的(当您想最小化它时很不错),它对于高斯分布是足够的统计量,并且是L2范式(的一个版本),可用于证明收敛性等。

平均绝对偏差(您建议的绝对值表示法)也用作色散的量度,但不如平方误差“表现良好”。


2
说“它是连续可微的(当您想将其最小化时很好)”是否表示绝对值难以优化?
罗宾吉拉德

29
@robin:尽管绝对值函数在任何地方都是连续的,但其一阶导数不是(在x = 0处)。这使得分析优化更加困难。
文斯2010年

12
是的,但是在平方误差损失下,更容易找到所需的实际数字,而不仅仅是它的描述符。考虑一维情况;您可以通过以下均值来表示平方误差的极小值:O(n)运算和闭合形式。您可以用中位数来表示绝对误差最小化器的值,但是没有封闭形式的解决方案可以告诉您中位数是多少。它需要一种查找类型,类似于O(n log n)。最小二乘解通常是简单的即插即用型操作,绝对值解通常需要更多的工作才能找到。
Rich

5
@Rich:方差和中位数都可以在线性时间内找到,当然不会更快。中位数不需要排序。
尼尔·G


84

您可以想到的一种方法是,标准偏差类似于“与均值的距离”。

将其与欧氏空间中的距离进行比较-这可以为您提供真实的距离,在这里您所建议的值(顺便说一句,是绝对偏差)更像是曼哈顿距离计算。


17
欧氏空间的比喻!
c4il

2
除了在一个维度上,和范数是同一件事,不是吗?2l1l2
naught101 2012年

5
@ naught101:这不是一个维度,而是维度,其中是样本数。标准偏差和绝对偏差分别是(定标)和在两个点和之间的距离,其中是意思。n l 2 l 1x 1x 2x nμ μ μ μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR 2012年

1
应将其修改为距均值的最小距离。本质上是毕达哥拉斯方程。
2014年

56

原因,我们计算标准差,而不是绝对的错误是,我们假设误差为正态分布。这是模型的一部分。

假设您使用尺子测量了非常小的长度,那么标准偏差就不是衡量错误的好方法,因为您知道自己绝不会意外地测量到负长度。更好的指标是可以帮助您将Gamma分布拟合到您的测量中的指标:

log(E(x))E(log(x))

像标准偏差一样,这也是非负且可微的,但是对于此问题,它是更好的误差统计量。


3
我喜欢你的回答。SD并非总是最好的统计数据。
RockScience 2010年

2
关于标准偏差何时不是考虑波动大小的最佳方法的绝佳反例。
2014年

您是否应该在数量上产生相反的符号以产生正值-使用凸对数而不是凹?日志xlogxlogx
AS

@AS不,它一直都是肯定的。当所有样本都相等时,它为零,否则它的大小度量变化。x
Neil G

你误会了。表示凹面。E(g(X))g(E(X))g
AS

25

最令我满意的答案是,它自然地从将样本推广到n维欧式空间。是否应该执行此操作当然值得商,,但无论如何:

假设您的测量值分别是一个轴。然后,数据在该空间中定义一个点。现在您可能会注意到数据彼此非常相似,因此可以使用一个位置参数表示它们,该位置参数被约束为位于定义的行上。将数据点投影到该行上可以得到,并且从投影点到实际数据点的距离为。X ř Ñ X X μ X = μ μ = ˉ X μ 1 nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

这种方法还可以为您提供相关性的几何解释,即。ρ^=cos(x~,y~)


7
这是正确且有吸引力的。但是,最后似乎只是重新表述了这个问题而没有实际回答它:即,为什么我们要使用欧几里德(L2)距离?
ub

20
@sesqu在高斯于1809年以平方误差而不是绝对误差为起点推导出他的同名偏差之前,标准偏差才变得司空见惯。但是,促使他们走高的原因(我相信)是高尔顿的回归理论(在您暗示时)和方差分析分解平方和的能力-相当于重新定义了勾股定理,这种关系只有通过L2规范。因此,SD成为费舍尔(Fisher)在1925年提出的“研究人员的统计方法”中倡导的一种自然的综合衡量传播的方法,而在85年后的今天,我们成为了。
Whuber

13
(+1)继续@whuber的脉络,我敢打赌,如果Student在1908年发表了一篇论文,题为“均值的可能错误-嘿,伙计们,请检查分母中的MAE!” 那么统计数据到现在将完全不同。当然,他没有发表那样的论文,当然也没有,因为MAE并没有吹嘘S ^ 2具有的所有出色特性。其中之一(与学生有关)是平均值的独立性(在正常情况下),这当然是对正交性的重述,这使我们回到L2和内积。

3
这个答案是发人深省的,我认为我更喜欢查看它的方式。在一维模型中,很难理解为什么平方差更好。但是,在多个维度(甚至只有2个维度)中,人们可以轻松地看到,欧几里得距离(平方)比曼哈顿距离(差的绝对值之和)更好。
thecity2 2016年

1
@whuber您能解释一下“由Xᵢ=μ定义的线”是什么意思吗?它是穿过原点和点(μ,μ,...,μ)的线吗?另外,我在哪里可以了解更多信息?
斯坦顿拱

18

将差异与均值进行平方有两个原因。

  • 方差定义为偏差的第二个矩(此处的RV为),因此矩的平方仅仅是对随机变量的更高幂的期望。(xμ)

  • 相对于绝对值函数有一个平方可以提供一个很好的连续且可微的函数(绝对值在0处不可微)-这使其成为自然选择,尤其是在估计和回归分析的情况下。

  • 平方公式也自然不属于正态分布的参数。


17

另一个原因(除了上述出色的方面)来自费舍尔本人,他表明标准偏差比绝对偏差“更有效”。在这里,有效与一个统计数据在不同样本中的价值波动多少有关。如果您的总体呈正态分布,则平均而言,各个样本与该总体的标准偏差往往会给您提供彼此非常相似的值,而绝对偏差会给您带来更多分散的数值。现在,显然这是在理想的情况下,但是这个原因使很多人相信了(随着数学变得更清晰),因此大多数人都使用标准偏差进行工作。


6
您的论点取决于正态分布的数据。如果我们假设总体具有“双指数”分布,那么绝对偏差会更有效(实际上,该量表对于统计而言是足够的)
概率

7
是的,正如我所说,“如果您的人口呈正常分布”。
埃里克·苏

除了假设正态分布,费舍尔证明还假设无误差。当出现1%之类的小误差时,情况会反转,平均绝对偏差比标准偏差更有效
juanrga

14

众所周知,关于同一主题存在一个数学溢出问题。

为什么这么凉快地求平方数的标准偏差

要传达的信息是,使用方差的平方根可以简化数学运算。上面的Rich和Reed也给出了类似的回答。


3
当我们希望我们的公式和值更真实地反映给定的数据集时,“简化数学运算”不是必不可少的要求。无论如何,计算机会完成所有艰苦的工作。
丹·W

将pi定义为3.14可简化数学运算,但这并不合适。
詹姆斯

13

方差是附加的:对于独立随机变量, var X 1 + + X n= var X 1+ + var X nX1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

请注意,这有可能:说我将一个公平的硬币扔了900次。我得到的头数在440和455(含)之间的概率是多少?只需找到期望的头数(),然后计算头数的方差(),然后找到正态(或高斯)分布的概率,期望值为,标准偏差为则介于和。亚伯拉罕·德·莫夫(Abraham de Moivre)在18世纪用掷硬币的方式做到了这一点,从而首先表明钟形曲线值得。225 = 15 2 450 15 439.5 455.5450225=15245015439.5455.5


平均绝对偏差与方差不会相加吗?
russellpierce

6
不,他们不是。
Michael Hardy

10

我认为,一旦超出单个变量并考虑线性回归,使用绝对偏差和平方偏差之间的对比就会变得更加清晰。在http://en.wikipedia.org/wiki/Least_absolute_deviations上有一个很好的讨论,特别是“用最小绝对偏差与最小二乘法对比”部分,该链接链接到一些学生练习,网址http:// www。 .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html

总而言之,最小绝对偏差比一般最小二乘方对异常值的鲁棒性强,但它可能不稳定(即使单个基准面的微小变化也会使拟合线发生较大变化),并且并非总是有唯一的解决方案-可以一系列的拟合线。同样,最小绝对偏差也需要迭代方法,而普通最小二乘法具有简单的封闭形式的解决方案,尽管现在这已经不像在高斯和勒让德时代那样大了。


“唯一解决方案”的论点很弱,这实际上意味着数据可以很好地支持多个值。此外,对系数(例如L2)进行惩罚将在一定程度上解决唯一性问题和稳定性问题。
概率

10

原因很多。可能主要是因为它可以很好地用作正态分布的参数。


4
我同意。如果采用正态分布,则标准偏差是测量色散的正确方法。而且许多分布和真实数据都是近似正常的。
卢卡斯卢

2
我不认为您应该说“自然参数”:正态分布的自然参数是均值和均值倍精度。(en.wikipedia.org/wiki/Natural_parameter
尼尔ģ

1
@NeilG好点;我在想“休闲”的意思。我会考虑一个更好的词。

8

在许多方面,使用标准偏差来概括色散的方法正在得出结论。您可以说SD隐式地假设对称分布,因为它对均值以下距离和均值上方距离的均等对待。SD非常难以解释给非统计学家。有人可能会说,基尼的均值差异具有更广泛的应用范围,并且可以解释得更多。像SD的均值一样,它不需要声明他们选择集中趋势的度量。基尼的平均差是任意两个不同观察值之间的平均绝对差。如果该分布实际上是高斯分布的,则除了健壮和易于解释之外,它的效率正好是SD的0.98。


2
只是为了补充@Frank关于Gini的建议,这里有一篇不错的论文:projecteuclid.org/download/pdf_1/euclid.ss/1028905831它讨论了各种分散措施,并提供了有益的历史观点。
Thomas Speidel 2014年

1
我也喜欢这些想法,但是对于方差(以及SD)的并行定义鲜为人知,它没有将均值称为位置参数。方差是值之间所有成对差异的均方根的一半,就像Gini均值差基于所有成对差异的绝对值一样。
尼克·考克斯

7

估计分布的标准偏差需要选择一个距离。
可以使用以下任意距离:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

我们通常使用自然欧几里得距离(),这是每个人在日常生活中使用的距离。您建议的距离是的距离。 两者都是很好的候选人,但他们是不同的。n=2n=1

也可以决定使用。n=3

我不确定您是否喜欢我的答案,我与他人相反的观点并不是要证明更好。我认为,如果要估计分布的标准偏差,则可以绝对使用其他距离。n=2


6

这取决于您所说的“数据传播”。对我来说,这可能意味着两件事:

  1. 采样分布的宽度
  2. 给定估计的准确性

对于点1),没有特别的理由使用标准偏差作为传播的量度,除非您具有正态采样分布。在拉普拉斯抽样分布的情况下,度量是更合适的度量。我的猜测是,由于从点2)继承了直觉,因此在这里使用了标准偏差。通常也可能是由于最小二乘建模的成功,标准偏差是适当的度量。也可能是因为对于大多数分布,计算通常比计算更容易。E(|Xμ|)E(X2)E(|X|)

现在,对于点2),有一个很好的理由将方差/标准偏差用作点差的度量,在一种特殊但非常常见的情况下。您可以在Laplace逼近后验中看到它。使用数据和先验信息,将参数的后验写为:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

我已经将用作虚拟变量来表示分母不依赖。如果后验具有一个很好的四舍五入的最大值(即不太接近“边界”),那么我们可以泰勒展开关于其最大值对数概率。如果采用泰勒扩张的前两个条件,我们将得到(使用素数进行微分):θ θ 最大tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

但是在这里,由于是一个“四舍五入”的最大值,所以我们有:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

如果插入这个近似值,我们得到:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

但是,请注意,这是一个正态分布,均值等于,方差等于E(θDI)θmax

V(θDI)[h(θmax)]1

(始终为正,因为我们有一个取整的最大值)。因此,这意味着在“规则问题”(其中大多数问题)中,方差是确定估计精度的基本量。因此,对于基于大量数据的估计,从理论上讲,标准差是很有意义的-它可以告诉您基本上您需要了解的所有内容。本质上,相同的参数适用于是Hessian矩阵。对角线条目在这里也基本上是方差。h(θmax)θh(θ)jk=h(θ)θjθk

使用最大似然法的频率学家将得出基本相同的结论,因为MLE往往是数据的加权组合,并且对于大样本,使用中心极限定理,并且如果我们采用但是和互换: (看看是否可以猜出我喜欢哪种范例:P)。因此,无论哪种方式,在参数估计中,标准差都是扩展的重要理论度量。p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

“为什么要平方差”而不是“取绝对值”?为了准确地回答,有文献给出了采用它的原因以及为什么大多数原因不成立的案例。“我们不能简单地采用绝对值...吗?”。我知道文学的答案是肯定的,而且这样做是有利的。

作者戈拉德指出,首先,以前使用正方形是为了简化计算,但是那些原始原因不再成立。第二,戈拉德指出,采用OLS的原因是Fisher认为使用OLS的分析样本的偏差要小于使用绝对差的分析样本的偏差(粗略地说)。因此,在某些理想情况下,OLS似乎会受益。然而,戈拉德继续指出,在现实世界条件下(观测值测量不完善,分布不均匀,在没有样本推断的情况下进行的人口研究)存在一些共识(他声称费舍尔同意),使用平方比绝对差异。

戈拉德(Gorard)对您的问题的回答:“难道我们不能简单地取差的绝对值取其期望值(均值)吗?” 是是的。另一个优势是,使用差异会产生与我们在生活中体验这些想法的方式有关的度量(误差和变异的度量)。戈拉德说,想像一下均匀分配餐馆账单的人,有些人可能会直观地注意到这种方法是不公平的。那里没有人会纠正错误。差异才是重点。

最后,他指出,使用绝对差异,将每个观察均等地对待,而通过对比平方,差异使预测的权重比良好预测的权重差得多,这就像允许某些观察多次包含在研究中一样。总而言之,他的总体主旨是,如今使用正方形的获胜理由并不多,相反,使用绝对差具有优势。

参考文献:


1
感谢@Jen,这使我想起了QWERTY键盘的历史。嘿,为什么要这么长时间才能输入QWERTY?
toto_tico

5

因为与绝对值相比,平方可以更轻松地使用许多其他数学运算或函数。

示例:正方形可以被积分,微分,可以轻松地用于三角函数,对数函数和其他函数。


2
我想知道这里是否有一个自我实现的职业。我们得到
概率

5

当添加随机变量时,它们的方差会为所有分布相加。方差(以及因此的标准偏差)对于几乎所有分布都是有用的度量,绝不限于高斯(也称为“正态”)分布。这有利于将其用作我们的错误度量。缺乏唯一性是一个存在绝对差异的严重问题,因为经常有无数的等量“拟合”,但是显然“中间一个”是最切合实际的。同样,即使对于当今的计算机,计算效率也很重要。我处理大型数据集,CPU时间很重要。但是,如先前的一些答案所指出的,没有单一的绝对“最佳”残差度量。有时,不同的情况需要采取不同的措施。


2
我仍然不相信方差对于非对称分布非常有用。
Frank Harrell 2014年

一对“半方差”呢,一个向上,一个向下呢?
kjetil b halvorsen

3

自然地,您可以用任何有意义的方式(绝对偏差,分位数等)描述分布的离散。

一个不错的事实是,方差是第二个中心矩,每个分布(如果存在)都由其矩唯一地描述。另一个不错的事实是,该方差在数学上比任何可比较的指标都更易于处理。另一个事实是,方差是通常参数化的正态分布的两个参数之一,并且正态分布仅具有2个非零中心矩,这是这两个正参数。即使对于非正态分布,在正态框架中进行思考也可能会有所帮助。

如我所见,之所以存在标准偏差,是因为在应用程序中经常出现方差的平方根(例如标准化随机变量),因此需要为其命名。


1
如果我没记错的话,对数正态分布不是不是由其时刻唯一地定义的。
概率

1
实际上,@ probabilityislogic是正确的,请参见 “特征函数和矩生成函数”部分中的en.wikipedia.org/wiki/Log-normal_distribution
kjetil b halvorsen

1

当您考虑线性回归与中位数回归时,可能是另一种可能更直观的方法。

假设我们的模型是。然后,通过最小化期望平方残差找到b 。E(y|x)=xββ=argminbE(yxb)2

相反,如果我们的模型是中位数,那么我们通过最小化绝对残差找到参数估计值。(y|x)=xββ=argminbE|yxb|

换句话说,使用绝对误差还是平方误差取决于要对期望值还是对中值建模。

如果分发,例如,显示歪斜异方差,那么在大的差别如何的预期值的斜率过改变的斜率如何对于中值的值。yxy

Koenker和Hallock在分位数回归方面做得很好,其中中位数回归是一个特例:http : //master272.com/finance/QR/QRJEP.pdf


0

我的猜测是:大多数人口(分布)倾向于聚集在均值附近。值离平均值越远,它越稀有。为了充分表达值的“偏离”程度,有必要考虑其与平均值的距离以及其(通常来说)出现的稀有性。与具有较小偏差的值相比,将差与均值进行平方即可。对所有方差求平均值后,就可以取平方根了,这将使单位恢复为原始尺寸。


2
这并不能解释为什么您不能仅仅采用差异的绝对值。对于大多数统计101学生来说,这似乎在概念上更简单,并且“将同时考虑其与均值的距离和(通常来说)出现的稀少性”。
gung

我认为差异的绝对值只能表示与均值的差异,而不会考虑较大差异对正态分布有双重破坏的事实。
塞缪尔·贝里

2
为什么“双重破坏性”很重要而不是“三次破坏性”或“四倍破坏性”呢?看来此答案仅用一个等效问题代替了原始问题。
ub

0

平方会放大较大的偏差。

如果样本的值遍及整个图表,则要使68.2%处于第一个标准偏差之内,则您的标准偏差需要更宽一些。如果您的数据倾向于全部落在均值附近,则σ可能会更严格。

有人说这是为了简化计算。使用平方的正平方根可以解决该问题,从而使参数不会浮动。

|x|=x2

因此,如果目标是代数简单,那么它将看起来像这样:

σ=E[(xμ)2],其产生的结果与。E[|xμ|]

显然,平方也可能会放大外围错误(doh!)。


根据我刚刚处理的标志,我怀疑下降投票者不能完全理解此答案如何回答问题。我相信我已经看到了这种联系(但是您仍然可以考虑进行一些编辑以帮助其他读者更好地理解您的观点)。不过,您的第一段让我感到有些循环:68.2%的值是从标准偏差的属性得出的,因此,调用该数字如何有助于证明使用SD而不是其他一些偏差范数是合理的从均值来量化分布的范围?Lp
ub

第一段是我投反对票的原因。
亚历克西斯

3
@Preston Thayne:由于标准偏差不是的期望值sqrt((x-mu)^2),因此您的公式具有误导性。另外,仅因为平方具有放大较大偏差的作用,并不意味着这是偏向于MAD的原因。如果有的话,那是中性的,因为我们经常需要MAD这样更坚固的东西。最后,从数学上讲,方差MAD更容易处理,这一事实在数学上比您在本文中传达的要深得多。
史蒂夫·S

0

为什么要对差值求平方而不是取标准偏差的绝对值?

我们将x与平均值的差平方为平方,这是因为与自由度的平方根成正比的欧几里德距离(以人口度量,x的数量)是分散的最佳度量。

计算距离

0点到5点的距离是多少?

  • 50=5
  • |05|=5
  • 52=5

好的,这很简单,因为它是一个单一维度。

点0、0到点3、4的距离如何?

如果我们一次只能输入一维数据(例如在城市街区​​中),那么我们只需将数字相加即可。(有时称为曼哈顿距离)。

但是一下子进入二维呢?然后(通过我们在高中都学过的毕达哥拉斯定理),我们对每个维度的距离求平方,对平方求和,然后取平方根求出从原点到点的距离。

32+42=25=5

从0、0、0点到1、2、2的距离如何?

这只是

12+22+22=9=3

因为前两个x的距离构成了计算最终x的总距离的支路。

x12+x222+x32=x12+x22+x32

对于超维空间中的正交测量,我们可以继续扩展对每个维度的距离进行平方的规则,将其推广到所谓的欧几里得距离,如下所示:

distance=i=1nxi2

因此正交平方和就是距离的平方:

distance2=i=1nxi2

是什么使测量与另一个正交(或成直角)?条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的iid)。

方差

现在回想一下总体方差的公式(从中我们可以得到标准差):

σ2=i=1n(xiμ)2n

如果我们已经通过减去平均值将数据居中于0,则可以得到:

σ2=i=1n(xi)2n

因此,我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。distance2

标准偏差

然后我们有了标准偏差,它只是方差的平方根:

σ=i=1n(xiμ)2n

等效地,距离,除以自由度的平方根:

σ=i=1n(xi)2n

平均绝对偏差

平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。

MAD=i=1n|xiμ|n

同样,假设数据居中(减去均值),则用曼哈顿距离除以测量次数:

MAD=i=1n|xi|n

讨论区

  • 平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍(实际上是2/π)。
  • 无论分布如何,平均绝对偏差都小于或等于标准偏差。MAD低估了相对于标准偏差的极值数据集的离散度。
  • 平均绝对偏差对异常值的鲁棒性更高(即,异常值对统计的影响不如对标准差的影响大。
  • 从几何学上讲,如果测量值彼此不正交(例如,id),例如,如果它们是正相关的,则平均绝对偏差将比标准偏差更好地描述统计量,标准偏差取决于欧几里得距离(尽管通常认为这很好) )。

该表以更简洁的方式反映了上述信息:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

评论:

您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考?我正在运行的模拟表明这是不正确的。

这是标准正态分布中100万个样本的10个模拟:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

结论

在计算色散度量时,我们更喜欢平方差,因为我们可以利用欧几里得距离,从而为色散提供了更好的描述统计。当存在更多相对极值时,欧几里得距离占统计数据中的极值,而曼哈顿距离为每个度量值赋予相等的权重。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.