什么是标准偏差?


31

什么是标准偏差,如何计算以及在统计中的用途?


7
我认为该网站的目的不是回答六年级学生的问题。当我的孩子遇到这样的问题时,他会用谷歌搜索答案。如果定义中有您不理解的特定部分,请询问。但是,对于这样一个基本主题如此不专心的问题(无论如何对我而言)表明,发帖人甚至都没有试图找到答案。接下来将是什么?“什么是数字,以及如何使用它们?”
PeterR 2010年

9
我认为这个问题还可以。实际上,这是有关51区主题问题的最受推崇的例子。这里的基础知识还可以!
彼得·史密特

6
同意,这是一个有效的问题。要求使用和计算的示例也很清楚。该站点的目的肯定是为所有问题的统计信息创建一个存储库。
乔尔2010年

5
我同意乔尔。标准差是统计中的重要概念。如果您不能在网站上提出有关统计问题的问题,这不会荒唐。
Parbury 2011年

4
作为前世的高中老师,我会说没有愚蠢的问题。当您将一个问题标记为不值得的那一刻,那一刻,您就会失去最有效的学习方式,即提出问题!(我将在下面回答这个问题。)
Adhesh Josh 2012年

Answers:


30

标准偏差是代表一组数据的“散布”或“分散”的数字。还有其他传播指标,例如范围和方差。

以下是一些示例数据集及其标准差:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

以上数据集具有相同的平均值。

偏差表示“与均值的距离”。

“标准”在这里是指“标准化”,是指标准差和均值在同一单位内,与方差不同。

例如,如果平均高度为2 ,则标准偏差可能为0.3 ,而方差为0.09 米见方

很容易知道,至少有75%的数据点始终位于平均值的2个标准差之内(如果分布为正态,则大约为95%)。

例如,如果平均值为100,标准偏差为15,则至少75%的值在70到130之间。

如果分布恰好是正态分布,则其中95%的值在70到130之间。

一般来说,IQ测试成绩呈正态分布,平均为100。“非常聪明”的人比平均值高两个标准差,这意味着IQ测试成绩为130。


尼尔,谢谢您的回答,能否请您详细解释“标准偏差”一词中的“标准”部分。如果合适的话,请您在“均值标准误”一词中触摸相同的“标准”。先感谢您。
斯坦

重新查看您最近的编辑:SD是在什么意义上“标准化”的?通常,它成为标准化的基础,但本身并不是标准化的(例如,通过对其采样变化的某种估计来重新缩放)。
ub

它被标准化为与平均值相同的单元
Neil McGuigan'4

平均高度为2米的示例是需要注意使用小数的一个很好的示例。可以以厘米为单位进行相同的示例,其中30厘米的标准偏差将在逻辑上从900厘米的差异得出。
罗伯·琼斯

我的印象是应避免在主要计量单位中使用它们。考虑一下以0.133为单位的SD的结果,转换为分米,厘米和毫米。请问有人愿意澄清吗?
罗伯·琼斯

9

引自维基百科

它显示了与“平均值”(平均值或预期/预算值)相差多少。低标准偏差表示数据点趋向于非常接近均值,而高标准偏差表示数据分散在较大的值范围内。


5

在描述变量时,我们通常使用两种度量对其进行总结:中心度量和价差度量。中心的常见度量包括均值,中位数和众数。常用的价差包括方差和四分位间距。

当报告均值时,通常使用方差(由希腊小写西格马西格马提至幂2表示)。方差是变量的均方差。通过从每个观察值中减去平均值来计算偏差。这是平方的,因为否则总和将为零,并且平方可以消除此问题,同时保持偏差的相对大小。使用变化量作为扩展量度的问题在于它是平方单位。例如,如果我们感兴趣的变量是以英寸为单位的高度,那么方差将以平方英寸的形式报告,这没有什么意义。标准偏差(由希腊小写的sigma表示)是方差的平方根,并将价差的度量返回到原始单位。

使用标准偏差时,必须注意离群值,因为它们不是标准的扩展度量,因为它们会使标准差(和均值)产生偏差。一个简单的示例将说明此属性。我可怕的板球击球得分分别为13、14、16、23、26、28、33、39和61,平均值为28.11。如果我们认为61是一个离群值并将其删除,则平均值将为24。


1
σ2σ

2

这是我将使用图表回答此问题的方式。

假设我们称重30只猫,然后计算平均体重。然后我们生成一个散点图,y轴上的权重,x轴上的猫同一性。平均重量可以绘制为水平线。然后,我们可以画出将每个数据点连接到均值线的垂直线-这些是每个数据点与均值的偏差,我们称它们为残差。现在,这些残差很有用,因为它们可以告诉我们有关数据分布的一些信息:如果有很多大残差,那么猫的质量变化很大。相反,如果残差主要很小,则猫的平均体重就非常接近。因此,如果我们有一些指标可以告诉我们平均值此数据集中残差的长度,这将是一种方便的方式来表示数据中有多少分布。标准偏差实际上是平均残差的长度。

接下来,我将对sd进行计算,解释为什么我们先平方根然后平方根(我喜欢Vaibhav简短而甜美的解释)。然后,我要像格雷厄姆在上一段中提到的那样,提出离群值问题。


1

如果所需的信息是有关均值的数据分布,则标准偏差非常有用。

每个值与均值之差的总和为零(显然,因为该值均匀地分布在均值周围),因此我们对每个差取平方,以便将负值转换为正值,在总体中求和,然后取它们的总和。平方根。然后,将该值除以样本数(或总体大小)。这给出了标准偏差。


“因此,我们对每个差异求平方...。”我们也可以取绝对值来消除负值。那么为什么平方数是更好的方法,因为我们必须在末尾求平方根?为什么不仅仅求和偏差的绝对值呢?
Dilip Sarwate 2012年

看到这个了吗?链接
Vaibhav Garg,2012年

45

1
@DilipSarwate,在所有适当的尊重下,权威证明不会给我留下深刻印象。我认为“因此”是“权威”的假设是一个“稻草人”。任何给定陈述中的详细程度与其在给定上下文中的倾向和/或教学意义相称。我假设有人问“标准偏差是多少,......如何?” 可能不希望对其进行严格的数学定义。简化是有意的,让我向您保证,不是由于不了解而导致的。
Vaibhav Garg,2012年

1
祈求告诉我们的是……“因此,我们平方……”除了没有给您留下深刻印象的权威证明之外?正如您的“因此”所暗示的那样,平方是自动解决问题的方法,这没有逻辑上的原因。
Dilip Sarwate'2

1

我喜欢这样认为:标准偏差是与平均值的平均距离。从概念上讲,这比数学上有用,但对于未入门的人来说,这是一个很好的解释方式。


0

标准偏差是分布的第二个中心矩的平方根。中心矩是与分布的期望值的期望差。第一中心矩通常为0,因此我们将第二中心矩定义为随机变量与其期望值的平方距离的期望值。

为了使其与原始观测值更接近,我们将第二个中心矩的平方根作为标准偏差。

标准差是人口的财产。它衡量该人口的平均“分散度”。所有的混淆是否都集中在均值周围,还是广泛散布?

为了估计总体的标准偏差,我们经常计算该群体的“样本”的标准偏差。为此,您可以从该总体中获取观察值,计算这些观察值的平均值,然后计算与该“样本平均值”的平均平方偏差的平方根。

为了获得方差的无偏估计量,您实际上并没有计算出样本均值的平均平方偏差,而是将其除以(N-1),其中N是样本中观测值的数量。注意,该“样本标准偏差”不是标准偏差的无偏估计量,但是“样本标准偏差”的平方是总体方差的无偏估计量。


6
这是一个非常不清楚的回应。请尝试用英语写。
尼尔·麦圭根

1
可能是吧。是问这个问题的人,走在街上的人还是至少打开过统计册的人。告诉某人标准偏差只是方差的平方根,这完全是一个问题。
巴尔的摩

-1

我了解标准差的最好方法是考虑一个美发师!(您需要从理发店收集数据并平均她的剪发速度,此示例才能正常工作。)

理发器平均要花费30分钟来剪头发。

假设您进行了计算(大多数软件包都将为您执行此操作),您发现标准偏差为5分钟。这意味着:

  • 美发师在25分钟和35分钟内修剪了68%的客户头发
  • 理发师在20和40分钟内修剪了96%的客户头发

我怎么知道 您需要查看法线曲线,其中68%落在平均值的1个标准偏差内,而96%落在平均值的2个标准偏差内。因此,您可以从平均值中添加或减去标准差。

如果在这种情况下需要一致性,则标准偏差越小越好。在这种情况下,梳妆台与任何给定的客户最多花费大约40分钟的时间。您需要快速修剪头发,才能成功运行轿车!


我不认为您会校对答案,Adhesh。您在这里有一些矛盾的信息。看看您是否同意我的修改,好吗?
rolando2'1

1
您仅描述了正态分布情况下标准偏差的解释。“ 68%规则”和(和95%规则)仅适用于正态分布的数据。至少要说明,只有在理发时间遵循正态分布的情况下,这两个项目符号才正确。
2012年

宏,我确实提到了正态曲线,这是给定的,如果使用正态曲线,则数据将遵循正态分布。
Adhesh Josh 2012年

@ rolando2我似乎不明白Adhesh的解释出了什么问题
Amarald

@Amarald-您是否单击过“ Jan 31 at 1:06”以查看编辑前后的版本?我认为此后的答案会更强,尽管Macro也很重要。
rolando2 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.