为什么将标准偏差定义为方差的平方根而不是N的平方和的平方根?


16

今天我教了一门统计学入门课,一个学生问我一个问题,在这里我改写为:“为什么标准偏差定义为方差的平方根而不是N的平方和的平方根?”

我们定义总体方差:σ2=1N(xiμ)2

和标准差:。σ=σ2=1N(xiμ)2

我们可能对的解释是,它给出了总体中单位与的总体平均值的平均偏差。σX

但是,在sd的定义中,我们将平方和的平方根除以。学生提出的问题是,为什么我们不划分平方庙的开方代替。因此,我们得出了竞争公式:学生认为,这种公式看起来更像由平均通过时分割比一个“平均”偏差如在。NN

σnew=1N(xiμ)2.
Nσ

我认为这个问题并不愚蠢。我想给学生一个答案,那就是说sd 定义为方差的平方根,即均方根偏差。换句话说,为什么学生应该使用正确的公式而不遵循她的想法?

该问题与此处提供的旧主题和答案有关。那里的答案有三个方向:

  1. σ是均方根(RMS)偏差,而不是与平均值的“典型”偏差(即)。因此,它的定义有所不同。σnew
  2. 它具有良好的数学特性。
  3. 此外,sqrt将使“单位”恢复到原始大小。但是,也是如此,它被N除以。σnewN

第1点和第2点都是支持sd作为RMS的参数,但是我看不到反对使用σnew。怎样说服入门级学生使用均方根平均距离σ与均值?


2
我认为“为什么将标准偏差定义为...”这个问题很难回答。定义只是任意的标签约定。他们不必遵循为什么
ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"可能是括号中的内容因某种原因而丢失了吗?
ttnphns

1
但是sd有很多用途。必须有比这样定义更好的动力。这将很有用,尤其是在教授本科生方面。我可以想像出切比雪夫不等式的动机(在领域中,最小案例的比例为+/-的sd常数)。
tomka

2
由于您的Q处于保持状态而无法回答,但是请尝试以下操作:想象一下,您观察到的值1和3大致相等(扔硬币,,)。与均值的观察值的“典型距离”应类似于1。使用公式,考虑对于非常非常大的这种典型距离的测量结果。在每种情况下将接近1,因此它们的平方和将接近。分子将接近因此即使与平均值的典型距离没有变化,您的公式也会随着增加而变得越来越小。Ť = 1 H=3T=1n| X- ˉ X | ñSSE/nn|xix¯|n nnn
Glen_b-恢复莫妮卡2014年

1
@whuber我进行了另一次更新,希望我提出的观点现在更加清楚。请注意,除了询问有关统计数据的问题外,我在这里还寻求教学建议。我不是在建议替代方案,而是举了一个学生在课堂上提出的好问题的例子,但我没有立即得到答复。如果您同意,请立即解除该问题。
tomka 2014年

Answers:


12

至少有三个基本问题可以很容易地向初学者解释:

  1. 甚至没有为无限的人群定义“新” SD。(在这种情况下,可以将其始终声明为零,但这将使其不再有用。)

  2. 新SD的行为不像平均值在随机采样下应该做的那样。

  3. 尽管新的SD 可以在所有数学上严格使用,以评估均值的偏差(在样本和有限总体中),但其解释不必要地复杂。

1.新SD的适用性受到限制

通过指出由于方差显然是(平方差的)算术平均值,因此可以将点(1)带回家,甚至对于那些不熟悉积分的人也是如此,它可以有效地扩展到“无限”总体模型,算术平均值存在的直觉仍然成立。因此,在这种情况下,它的平方根-通常的SD-也得到了很好的定义,并且其作用与方差(非线性重新表达)同样有用。但是,新的SD将平均值除以任意大的,使它的推广超出了有限的总体和有限的样本是有问题的:1/N在这种情况下 N是否相等?1/N

2.新的SD不是平均值

值得称呼为“平均值”的任何统计量都应具有随人口中随机样本的大小增加而收敛至人口值的属性。SD的任何固定倍数都将具有此属性,因为乘数将应用于计算样本SD和总体SD。(尽管与Alecos Papadopoulos提出的论点没有直接矛盾,但这一观察表明该论点仅与实际问题相切。)但是,“新” SD等于倍于通常的 N倍,显然,在所有情况下,随着样本大小N的增大,收敛到0。因此,尽管对于任何固定的样本量N,新的SD(适当地解释)是均值周围变化的完全适当的量度,但不能合理地认为它是适用于所有样本量的具有相同解释的通用量度,也不能在任何有用的意义上都可以正确地称为“平均”。1/N0NN

3.新的SD解释和使用很复杂

考虑取样(例如)大小样本。在这种情况下,新的SD为1 / N=4的通常SD倍。因此,它具有可比的解释,例如68-95-99规则的类似物(大约68%的数据应位于均值的两个新SD中,其中95%的数据应位于均值的四个新SD中,等等;和经典不等式的版本(例如Chebychev's)将成立(不超过数据的1/k2可以使平均值偏离平均数2k以上的新SD);并且可以用新SD类似地重述中央极限定理(一个除以1/N=1/21/k22k倍于新SD,以标准化变量)。因此,在这种特定且明确的约束意义上,学生的建议没有错。但是,困难在于这些语句都包含(相当明显)N。尽管这没有固有的数学问题,但无疑会使最基本的统计定律的陈述和解释变得复杂。N=2


值得注意的是,高斯等人最初用√来参数化高斯分布,有效地利用2σSD的 2倍以量化正常随机变量的传播。此历史用途证明了使用SD的其他固定倍数代替它的适当性和有效性。2


谢谢-一个问题(与您的观点2有关):做随着N的增大, N不会收敛到0,而11N0N很明显吗?1N
tomka 2014年

2
我们正在将样本的SD与倍于样本的SD(“新SD”)。随着N的增大,样本的SD趋近于等于种群SD的(通常)非零常数。因此1/1/NN次采样SD收敛到零。1/N
ub

这是标准教材,请教数学统计学中任何严格的教科书(公平地说,大多数初学者都无法使用)。但是,对于我的回答而言,重要的结果来自较弱且直观的陈述。固定数字并令σ为总体SD。认为样品SD将位于之间的机会σ /σ。只要样本量N增大,该机会就为零就足够了。仅此一项就表明1 / A>1σσ/AAσN样本SD几乎可以肯定地将 N次收敛到0,证明答案中的点(2)。1/N0
ub

+1,加上它不是比例不变的,(这种形式的必要条件)
Nikos M.

@Nikos谢谢,但是规模不变不是什么?两者重新缩放数据时, NSD会改变。SD/NSD
ub

5

假设您的样本仅包含两个实现。我猜想色散的直观度量是平均绝对偏差(AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

因此,我们希望在相同度量单位级别上的其他色散度量“接近”上述度量。

样本方差定义为

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

返回到原始的度量单位,如果我们按照学生想知道/建议的方式进行操作,我们将获得度量,将其称为q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

也就是说,我们会“淡化”色散的“直观”度量,而如果我们考虑定义的标准差,

SDσ2=|x1x2|2=AAD

既然我们要“留尽可能接近”,以直观的衡量,我们应该用SD

附录
现在考虑大小的样品我们有n

nAAD=i=1n|xix¯|

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

我们可以将方差表达式的右侧写为

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

则色散度量将为qn

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

ji|xix¯||xjx¯|n2nn2AAD2qnn

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

nn1n
nn


1
尽管这个答案很有趣,但我相信还有更重要,更令人信服和更严格的解释(我仅在其中提供了一些解释:可以说的更多,尤其是关于SD在中央极限定理中的作用)和计算独立随机变量和的SD的代数规则)。
ub

2
@whuber当然。我只是选择了一种“铃响”方法来破坏学生的间歇时间!
Alecos Papadopoulos 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.