为什么样本标准差是有偏估计量?


57

根据维基百科有关标准偏差无偏估计的文章,样本SD

s=1n1i=1n(xix¯)2

是总体SD的有偏估计。它指出。E(s2)E(s2)

注意 随机变量是独立的,每个xiN(μ,σ2)

我的问题有两个:

  • 有偏见的证据是什么?
  • 如何计算样本标准偏差的期望值

我的数学/统计知识只是中级。


4
您会发现有关Chi分布的Wikipedia文章都回答了这两个问题。
ub

Answers:


57

@NRH对这个问题的答案很好地证明了样品标准偏差的偏差。在这里,我将明确地从正态分布的样本中计算出样本标准差的期望值(原始张贴者的第二个问题),此时偏差是显而易见的。

一组点的无偏样本方差为x1,...,xn

s2=1n1i=1n(xix¯)2

如果是正态分布的,则事实是xi

(n1)s2σ2χn12

其中是真实方差。所述分布具有的概率密度χ 2 ķσ2χk2

p(x)=(1/2)k/2Γ(k/2)xk/21ex/2

使用此可以得出的期望值;s

E(s)=σ2n1E(s2(n1)σ2)=σ2n10x(1/2)(n1)/2Γ((n1)/2)x((n1)/2)1ex/2 dx

从期望值的定义和是分布变量的平方根的事实出发。现在的技巧是重新排列项,以使被积数成为另一个密度:s2(n1)σ2χ2χ2

E(s)=σ2n10(1/2)(n1)/2Γ(n12)x(n/2)1ex/2 dx=σ2n1Γ(n/2)Γ(n12)0(1/2)(n1)/2Γ(n/2)x(n/2)1ex/2 dx=σ2n1Γ(n/2)Γ(n12)(1/2)(n1)/2(1/2)n/20(1/2)n/2Γ(n/2)x(n/2)1ex/2 dxχn2 density

现在我们知道被积数的最后一行等于1,因为它是密度。简化常量可以得到 χn2

E(s)=σ2n1Γ(n/2)Γ(n12)

因此的偏差为s

σE(s)=σ(12n1Γ(n/2)Γ(n12))σ4n
作为。n

不难看出,对于任何有限的,该偏差都不为0 ,因此证明了样本标准偏差是有偏差的。下面的偏压是情节作为的函数为在红色与沿在蓝色:nnσ=11/4n

在此处输入图片说明


(+1)个好答案。我希望你不要介意,我调整了一些非常小的事情,并增加了关于偏差的渐近结果。我想您可以将曲线叠加到绘图上,但这可能是不必要的。干杯。:)(4n)1
主教

您确实花了很多力气来制作此Macro。大约在一分钟前,当我第一次看到该帖子时,我正在考虑使用詹森法则来显示偏见,但有人已经做到了。
迈克尔·切尔尼克

2
当然,这是一种证明标准偏差有偏差的方法-我主要是回答原始张贴者的第二个问题:“如何计算标准偏差的期望值?”。
2012年

2
也许值得一提的另一点是,该计算使人们可以立即读出在高斯情况下标准偏差的UMVU估计量:一个简单地将乘以证明中出现的比例因子的倒数。这相当容易地推广到 UMVU估计量。sσk
主教

2
抱歉,宏。您所使用的相同基本积分方法将起作用,您将得到不同的缩放因子,并且将gamma参数用作函数。这就是我的意思,但是结果太简洁了。:)skk
红衣主教2012年

43

您不需要常态。您需要做的就是 方差的无偏估计量。然后使用平方根函数严格凹的,使得(通过詹森不等式的强形式) 除非的分布在处退化。

s2=1n1i=1n(xix¯)2
σ2
E(s2)<E(s2)=σ
s2σ2

18

与NRH的答案相辅相成,如果有人正在向尚未研究Jensen不等式的一组学生教授这种方法,则一种方法是定义样本标准差 假设是非简并的(因此),并注意等价 小号ÑV- [R[小号Ñ]00<V- [R[小号Ñ]=ë[小号2Ñ]-ë2[小号Ñ]

Sn=i=1n(XiX¯n)2n1,
SnVar[Sn]0
0<Var[Sn]=E[Sn2]E2[Sn]E2[Sn]<E[Sn2]E[Sn]<E[Sn2]=σ.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.