范围与标准偏差之间的关系


14

在一篇文章中,我找到了样本量的标准偏差的公式N

σ=R¯2.534

其中R¯是主样本中子样本(大小6)的平均范围。2.534的数字2.534是如何计算的?这是正确的数字吗?


6
请参考。更重要的是:1.这里没有“正确的数字”,与您从中分配的分发类型无关。2.这些规则通常来自对从范围估计SD的捷径方法的兴趣。现在我们有了电脑...。您要这样做吗,为什么?为什么不仅仅使用数据?
Nick Cox

3
@尼克抱歉:你是正确的。周围的值作品为标准偏差,当样本的尺寸是约至 ; 适用于大约样本量,以此类推。我将删除我之前的评论,以免混淆我自己之外的任何人!15 50 3 1041550310
ub

1
@NickCox这是古老的俄罗斯货源,我之前没看过公式。
安迪

3
提供参考很少是一个坏主意。让读者自己决定他们是否有趣或可访问。(例如,这里有很多人会读俄语。)
尼克·考克斯

Answers:


17

在具有pdf的分布的独立值的样本中,极限和的联合分布的pdf与n F f min x = x [ 1 ] max x = x [ n ]xnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(比例常数是多项式系数的倒数。直观上讲,此联合PDF表示有机会找到范围内的最小值,在范围内的最大值,中间的值在。当连续时,我们可以用代替中间范围,从而只忽略了“无穷小”的概率。是[X[1]X[1]+dX[1][X[Ñ]X[Ñ]+dX[Ñ]ñ2[x[1]+dx[(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n2˚F X [ 1 ] X [ Ñ ] ]˚F X [ 1 ]d X [ 1 ]˚F X [ Ñ ]d X [ Ñ ][x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], f(x[n])dx[n],和,现在可以清楚地看出公式的来源。)F(x[n])F(x[1]),

取范围对于任何具有标准偏差和正态分布,得出。期望范围是的倍数,取决于样本大小: 2.53441 σ σ Ñ = 6 σ Ñx[n]x[1]2.53441 σσn=6σn

正常

这些值是通过对在进行数值积分来计算的,其中设置为标准Normal CDF,然后除以的标准偏差(仅为)。{Xÿ[R2| Xÿ}˚F˚F1(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

预期范围和标准偏差之间的类似乘法关系适用于任何位置范围的分布族,因为它仅是分布形状的属性。例如,这是均匀分布的可比图:

制服

和指数分布:

指数的

前两个图中的值是通过精确而非数字积分获得的,这可能是由于每种情况下和的相对简单的代数形式。对于均匀分布,它们等于,对于指数分布,它们等于,其中是欧拉常数,而是“ polygamma”函数,是Euler Gamma函数的对数导数。F n 1fFn1(n+1)12γ+ψ(n)=γ+Γ(n)Γ(n)γψ

尽管它们不同(因为这些分布显示的形状范围很广),但三个在附近大致一致,表明乘数并不严重依赖形状,因此可以用作标准偏差的综合,可靠的评估当小的子样本的范围已知时。(实际上,具有三自由度的非常重尾的Student分布在仍具有左右的乘数,距离根本不远。)n=62.5t2.3n=62.5


6
精彩的博览会!您可能想知道,这似乎是在1920年代进行的调查。参见1925年的小费。在Tippet的表(表X)中,给定大小为6的样本的范围的期望值为。他显示了正态分布范围的完整分布的推导。这是由David等人使用的(1954)计算正态性检验的范围分布的概率点(请参阅D'Agostino和Stephens 9.3.3.4.2)。2.53441σ
阿夫拉罕(Avraham)2013年

@Avraham谢谢您的启发性评论。当我添加图形时,令我震惊的是,整个方法的真正巧妙之处在于使用了大小为6的子样本,这是因为无论分布形状如何,乘数都趋于相同。
ub

谢谢!Tippet的表实际上为2到1000之间的所有数字提供了适当的乘数。当然,这要追溯到1925年,比ENIAC要早20年。
Avraham 2013年

@whuber您可以显示如何计算数字(2.534)吗?
安迪

我编辑了答案,以包括对计算的解释。
ub

4

该近似值非常接近真实样品标准偏差。我写了一个快速的R脚本来说明这一点:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

产生:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

现在,我不确定(尚)为什么可行,但至少(按面值)看起来近似值是一个不错的值。

编辑:请参阅@Whuber关于此工作原理的出色评论(上)


1
您正在从近似均匀的分布中绘制大小为子样本。对于真正均匀的分布,比率为。确实,如果您在仿真中使用该因子,则将等于,非常接近。6103/72.474mean(R)/2.4742887.6sd(x)
ub

非常真实!> mean(R)/2.474 [1] 2887.611
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.