在一篇文章中,我找到了样本量的标准偏差的公式
其中是主样本中子样本(大小)的平均范围。2.534的数字是如何计算的?这是正确的数字吗?
在一篇文章中,我找到了样本量的标准偏差的公式
其中是主样本中子样本(大小)的平均范围。2.534的数字是如何计算的?这是正确的数字吗?
Answers:
在具有pdf的分布的独立值的样本中,极限和的联合分布的pdf与n F f min (x )= x [ 1 ] max (x )= x [ n ]
(比例常数是多项式系数的倒数。直观上讲,此联合PDF表示有机会找到范围内的最小值,在范围内的最大值,中间的值在。当连续时,我们可以用代替中间范围,从而只忽略了“无穷小”的概率。是[X[1],X[1]+dX[1])[X[Ñ],X[Ñ]+dX[Ñ])ñ−2[x[1]+dx[˚F( X [ 1 ], X [ Ñ ] ]˚F( X [ 1 ])d X [ 1 ],˚F( X [ Ñ ])d X [ Ñ ], 和,现在可以清楚地看出公式的来源。)
取范围对于任何具有标准偏差和正态分布,得出。期望范围是的倍数,取决于样本大小: 2.53441 σ σ Ñ = 6 σ Ñ
这些值是通过对在进行数值积分来计算的,其中设置为标准Normal CDF,然后除以的标准偏差(仅为)。{(X,ÿ)∈[R2| X≤ÿ}˚F˚F1
预期范围和标准偏差之间的类似乘法关系适用于任何位置范围的分布族,因为它仅是分布形状的属性。例如,这是均匀分布的可比图:
和指数分布:
前两个图中的值是通过精确而非数字积分获得的,这可能是由于每种情况下和的相对简单的代数形式。对于均匀分布,它们等于,对于指数分布,它们等于,其中是欧拉常数,而是“ polygamma”函数,是Euler Gamma函数的对数导数。F n − 1
尽管它们不同(因为这些分布显示的形状范围很广),但三个在附近大致一致,表明乘数并不严重依赖形状,因此可以用作标准偏差的综合,可靠的评估当小的子样本的范围已知时。(实际上,具有三自由度的非常重尾的Student分布在仍具有左右的乘数,距离根本不远。)
该近似值非常接近真实样品标准偏差。我写了一个快速的R脚本来说明这一点:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
产生:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
现在,我不确定(尚)为什么可行,但至少(按面值)看起来近似值是一个不错的值。
编辑:请参阅@Whuber关于此工作原理的出色评论(上)
mean(R)/2.474
sd(x)