标准差背后的直觉


26

我试图更好地直观了解标准差。

据我所知,它代表着数据集中的一组观测值与该数据集的平均值之差的平均值。但是,它实际上并不等于差的平均值,因为它使平均值之外的观测值更具权重。

假设我有以下几种值-{1,3,5,7,9}

平均值是。5

如果我根据绝对值来衡量点差,我会得到

i=15|xiμ|5=2.4

如果我使用标准偏差对价差进行度量,我会得到

i=15(xiμ)25=2.83

如预期的那样,使用标准偏差的结果更大,因为它赋予了远离平均值的额外权重。

但是,如果仅告诉我我正在处理一个均值为且标准偏差为的总体,那么我如何推断该总体是由诸如?似乎的数字非常武断...我看不出您应该如何解释它。难道意味着该值是传播很广或者是他们都紧紧围绕均值聚类...2.83 { 1 3 5 7 9 } 2.83 2.8352.83{1,3,5,7,9}2.832.83

当您看到一个陈述,即您正在处理一个均值为且标准偏差为的总体时,这将告诉您有关总体的什么信息?2.8352.83


2
这个问题与stats.stackexchange.com/q/81986/3277 有关(尽管不完全相同),还有一个与此相关的问题
ttnphns 2014年

1
它告诉您与平均值的“典型”距离(RMS距离)。是什么使“大”或“小”取决于您的标准。如果您要测量工程公差,则可能会很大。在其他情况下,相同的标准偏差可以认为是很小的。
Glen_b-恢复莫妮卡2014年

Answers:


13

我的直觉是标准偏差是:数据传播的度量。

您有一个好点,即宽还是窄取决于我们对数据分布的基本假设。

警告:当您的数据分布围绕均值对称并且方差相对接近正态分布时,散度度量最有用。(这意味着它大约是正常的。)

在数据近似于法线的情况下,标准偏差具有规范的解释:

  • 区域:样本平均值+/- 1标准偏差,包含大约68%的数据
  • 区域:样本平均值+/- 2标准偏差,包含大约95%的数据
  • 区域:样本平均值+/- 3标准偏差,包含大约99%的数据

(请参阅Wiki中的第一个图形)

这意味着如果我们知道总体平均值为5,标准偏差为2.83,并且假设分布近似于正态,那么我会告诉您,我可以肯定地说,如果我们进行(大量)观察,则只有5%会小于0.4 = 5-2 * 2.3或大于9.6 = 5 + 2 * 2.3。

注意标准差对我们的置信区间有什么影响?(传播越多,不确定性越大)

此外,在通常情况下数据甚至不是近似正常的,但仍然是对称的,您会知道存在一些:α

  • 区域:样本均值+/-标准偏差,包含大约95%的数据α

您可以从子样本中学习,也可以假设,这通常为您提供了一个很好的经验法则,可以让您计算出将来的预期结果,或者可以将哪些新的观测结果视为离群值。(但是请记住警告!)α = 2αα=2

我看不到您应该如何解释它。2.83表示值分布得很宽还是全部都围绕均值...

我猜每个问“宽或紧”的问题都应包含:“与什么有关?”。一种建议可能是使用众所周知的发行版作为参考。根据上下文,考虑以下内容可能会很有用:“它是否比“普通/泊松”更宽或更紧?”。

编辑:基于评论中的一个有用提示,关于标准偏差作为距离量度的另一个方面。

标准偏差有用性的另一种直觉是,它是样本数据与它的平均值之间的距离度量:sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

作为比较,均方误差(MSE)是统计中最流行的误差度量之一,其定义为:

MSE=1ni=1n(Yi^Yi)2

可以提出为什么上述距离函数?为什么要平方距离而不是绝对距离?为什么我们要扎根?

具有二次距离或误差函数的优势在于我们既可以区分又可以轻松地将它们最小化。就平方根而言,它将误差转换回我们观测数据的范围,从而增加了可解释性。


为什么您说当数据正常时,散布量度最“有用”?在我看来,任何数据集都具有价差,即使偏差没有捕获价差的形状,标准差也是价差的摘要。
Michael Lew 2014年

当然可以。但是我并不是说标准偏差以任何方式取决于分布的形状。仅指出如果您对形状有一定了解(或准备进行此假设),通常它是非常有用的信息。以类似的方式,如果您可以对分布进行某些一般性假设,则样本均值可以很好地描述您的数据。
意味着意义的

我最喜欢使用平方而不是绝对值的原因是,它是某些高斯概率的对数。因此,如果您认为错误本质上是高斯的,并且位是衡量信息的好方法,那么使用平方误差是有意义的。
qbolec

5

这可能有助于认识到均值类似于质心。方差是惯性矩。标准偏差是回转半径

从历史的角度来看,请看一下:

乔治·艾里(1875)关于观测误差的代数和数值理论以及观测的组合

卡尔·皮尔森(Karl Pearson)(1894)对进化的数学理论的贡献。

这张来自Airy 1875的图显示了各种偏差的度量,这些度量很容易相互转换(第17页)。标准偏差称为“均方误差”。在第20-21页上还将对此进行讨论,他在第48页上说明其用法合理,这表明手工计算最容易,因为不需要分别计算负误差和正误差。标准偏差一词由皮尔森(Pearson)在上述第75页的论文中引入。

在此处输入图片说明

顺便说一句:请注意,标准偏差的效用取决于“误差定律”(也称为“正态曲线”)的适用性,它是由“许多独立的误差原因”引起的(Airy 1875 pg 7)。没有理由期望每个人的均值偏离均应遵循该定律。在许多情况下,对于生物系统,对数正态分布的假设要好于正态。看到:

Limpert等人(2001)跨科学的对数正态分布:键和线索

进一步质疑将个体变异视为噪声是否合适,因为数据生成过程是在个体而非群体的层面上起作用的。


3

实际上,标准偏差的确赋予了远离平均值的权重更多的权重,因为它是平方距离平均值的平方根。使用此函数的原因(而不是您建议的平均绝对偏差或稳健统计中使用的中值绝对偏差)部分是由于与多项式相比,使用多项式计算微积分的时间要短于绝对值。但是,通常,我们确实想强调极端值。

关于您关于直觉含义的问题-它随着时间而发展。您是正确的,一组以上的数字可以具有相同的均值和标准差;这是因为平均值和标准差只是两条信息,而数据集可能是5条(如1,3,5,7,9)或更多。

平均值5和sd为2.83是“宽”还是“窄”取决于您所从事的领域。

当您只有5个数字时,可以很容易地看到整个列表。当您有许多数字时,更直观地考虑价差的方法包括诸如五个数字的汇总,甚至更好的是诸如密度图之类的图形。


2

标准差衡量的是您的总体与平均值的距离,即随机变量。

让我们假设您的5个数字出现的可能性相同,因此每个数字的概率为.20。这由随机变量由X:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

我们转向功能和测度理论的原因是,我们需要一种系统的方式来讨论两个概率空间如何相同,直到发生零机会的事件为止。现在我们已经移到了功能上,我们需要一种距离感。

存在用于功能距离的许多意义,最显着的规范 为和引起距离函数。

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

如果我们采用范数,则会得到您提到的天真的绝对值偏差: 如果我们采用范数,得到通常的标准偏差 p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

这里表示常数函数。5_t5

理解标准偏差的含义实际上是理解距离函数的含义,并从许多意义上理解为什么它是函数之间距离的最佳度量。d2


这种解释包括一些看起来不“直观”的构造。原则上是在上定义的函数的不必要的外观,该间隔与设置无关。(将为是自然的,其中代数是的幂集。)此外,解释“ ”之类的表达式也有些问题,因为“ ”代表数字(总体的均值),而不是随机变量。最后,在引入了所有这些机制之后,问题被重述,但并未得到实际回答。X { 1 3 5 7 9 } [R X = { 1 3 5 7 9 } | | X 5 | | 1 5[0,1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15
Whuber

是的,您列出的随机变量对于那些熟悉度量理论的人来说是标准的。我希望将其范围缩小到只有微积分背景的人才能理解功能和集成。我将均值重写为函数。
2014年

另外,由于这是一个重述的问题,您是否建议包括有关为什么是函数之间距离的最佳度量的注释?d2
SomeEE 2014年

这个问题要求在理解标准偏差方面有直觉。您已经解释了它在某些函数空间中是范数的。尽管这提供了另一种数学形式化形式(对于不知道标准差的数学家来说将是足够的直觉),但这似乎没有达到原始发布者的要求。最令人欢迎的是一个后续段落,解释了“距离函数含义”,并详细说明了它是距离“最佳”度量的意义。2L2d2
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.