增加标准偏差的值


12

我对以下陈述感到困惑:

“为了增加一组数字的标准偏差,必须添加一个比平均值多一个标准偏差的值”

这是什么证明?我当然知道我们如何定义标准偏差,但是我似乎以某种方式错过了那部分。任何意见?


1
您是否尝试计算出涉及的代数?
Alecos Papadopoulos

是的,我有。我已经从n + 1个值的方差中减去了n个值的样本方差,并且我要求该差必须大于零。但是我不能完全弄清楚。
JohnK

3
最简单的方法之一是针对新值区分Welford算法,然后进行积分显示,如果引入增加方差,则其中是前值的平均值,而是其方差估计。xnxn(xnx¯n1)2nn1vn1x¯n1n1vn1
Whuber

好的,但是可以用简单的代数表示吗?我的统计知识还不那么先进。
JohnK

@JohnK,能否请您分享报价来源?
Pe Dro

Answers:


20

对于任何 数字,均值 ,方差由 应用对于给定的数字 ,为了便于说明,我们使它们具有均值, Ny1,y2,,yNy¯=1Ni=1Nyi

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
如果现在向该数据集添加新的观测值,则数据集的新均值是 而新的方差是 所以需要大于xn+1
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1|σ1+1n 或更笼统地说,与原始数据集的均值的差异应大于,以便使扩充后的数据集具有比原始数据集更大的方差。另请参阅雷·库普曼(Ray Koopman)的答案,该答案指出,根据的新方差大于,等于或小于原始方差,与均方差 相差大于,等于或小于。xn+1x¯σ1+1nxn+1σ1+1n

5
+1最后有人说对了... ;-)要证明的陈述正确的;只是不紧。顺便说一句,您也可以选择度量单位使,这进一步简化了计算,将其减少到大约两行。σ2=1
ub

我建议您在第一组方程中使用S而不是sigma,并感谢您的推导。很高兴知道:)
塞奥登

3

令人费解的陈述为增加标准偏差提供了必要但不足的条件。如果旧的样本大小是,旧平均值是,旧标准偏差是,和一个新的点被添加到数据,则新的标准偏差将小于,等于或大于根据作为小于,等于或大于。m s x s | x m | 小号nmsxs|xm|s1+1/n


1
您手上有证据吗?
JohnK

2

抛开代数(同样有效),可以这样考虑:标准偏差是方差的平方根。方差是与平均值的平方距离的平均值。如果我们添加一个比平均值更接近平均值的值,则方差将缩小。如果我们添加一个比平均值远的值,它将增长。

对于任何非负值的平均值都是如此。如果添加的值大于平均值,则平均值会增加。如果您添加一个较小的值,它将减小。


我也希望看到一个严格的证明。虽然我理解该原理,但我感到困惑的是,该值必须与均值相差至少1个偏差。为什么精确为1?
JohnK

我看不出有什么令人困惑的地方。方差是平均值。如果添加的值大于平均值(即大于1 sd),则它会增加。但是我不是一个正式的证明人
彼得·弗洛姆-恢复莫妮卡

它可能比平均值大0.2个标准差。那为什么不增加呢?
JohnK

不,不大于数据的平均值,大于方差,方差是平方距离的平均值。
彼得·弗洛姆

4
这很令人困惑,因为包含一个新值会更改平均值,因此所有残差都会更改。可以想象,即使新值远离旧均值,也可以通过减少其他值的残差平方和来补偿其对SD的贡献。这就是使用严格的证明有用的众多原因之一:它们不仅提供了知识的安全性,而且还提供了洞察力(甚至是新信息)。例如,证明将显示您必须添加一个新值,该值必须比均值严格超出一个SD才能增加SD。
Whuber

2

我会让您开始学习代数,但不会一路走来。首先,通过减去平均值并除以标准偏差来标准化数据:请注意,如果在均值的一个标准偏差内,则在-1和1之间。如果与均值相差1 sd,则Z为1 。然后查看您的标准差方程:如果在-1之间,会发生什么和1?XžXσ=

Z=xμσ.
xZx
σ=i=1NZi2N1
σZN

绝对值小于1的数字,平方时也将小于1(绝对值)。值。但是我不明白的是,即使Z_N属于该类别,我们也会为σ添加一个正值,所以它不应该增加吗?
JohnK

是的,您要添加一个正值,但它会小于平均值与平均值的平均偏差,因此会降低sigma。将值视为也许更有意义。ZN+1
wcampbell

1
1)别忘了,当您添加该值时,还将增加1。2)您未将该值添加至,而是将其添加至。σ Σ ž 2 NσZi2
jbowman

正是我想要表达的!
wcampbell 2013年

并不是那么简单:在这个答案中,您已经计算出SD,就好像新值已经属于数据集一样。相反,必须仅针对SD和前值的平均值(而不是全部标准化。 N 1ZiN1
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.