非正态样本的样本方差的渐近分布


19

这是造成问题的更一般的处理 这个问题。在得出样本方差的渐近分布之后,我们可以应用Delta方法得出标准差的相应分布。

设一个大小为的iid 非正态随机变量,均值和方差。将样本均值和样本方差设置为 { X i } n{Xi},i=1,...,nμσ2

x¯=1ni=1nXi,s2=1n1i=1n(Xix¯)2

我们知道

E(s2)=σ2,Var(s2)=1n(μ4n3n1σ4)

其中μ4=E(Xiμ)4,我们将注意力集中在需要存在且有限的矩,确实存在且为有限矩的分布上。

它持有吗

n(s2σ2)dN(0,μ4σ4)?

h 我只是在另一个主题上发布,没有意识到您已经发布了此主题。将CLT应用于方差可以找到很多东西(例如此处p3-4)。好答案顺便说一句。
Glen_b-恢复莫妮卡2014年

谢谢。是的,我已经找到了。但是他们错过了@whuber指出的情况。他们甚至提供了带有一般p的Bernoulli示例p!(第4页的基础)。我也将答案扩展到涵盖p=1/2情况。
Alecos Papadopoulos 2014年

是的,我看到他们考虑了伯努利,但没有考虑这种特殊情况。我认为提到比例伯努利(相等概率二分案件)的区别是(在其他几个问题中)为什么在此处进行讨论(而不只是在评论中)很有价值的原因之一-至少是这样它是可搜索的。
Glen_b-恢复莫妮卡2014年

Answers:


20

为了避免在考虑样本方差时出现的依赖性,我们写

(n1)s2=i=1n((Xiμ)(x¯μ))2

=i=1n(Xiμ)22i=1n((Xiμ)(x¯μ))+i=1n(x¯μ)2

稍加操作后,

=i=1n(Xiμ)2n(x¯μ)2

因此

ñs2-σ2=ññ-1个一世=1个ñX一世-μ2-ñσ2-ññ-1个ñX¯-μ2

操纵

ñs2-σ2=ññ-1个一世=1个ñX一世-μ2-ññ-1个ñ-1个σ2-ññ-1个ñX¯-μ2

=ñññ-1个1个ñ一世=1个ñX一世-μ2-ññ-1个ñ-1个σ2-ññ-1个ñX¯-μ2

=nn1[n(1ni=1n(Xiμ)2σ2)]+nn1σ2nn1n(x¯μ)2

项渐近地变为1。术语是确定的,随着变为零。n/(n1)Ñ→交通nn1σ2n

我们也有。第一个分量在分布上收敛为法线,第二个分量在概率上收敛为零。然后根据Slutsky定理,乘积收敛到零的概率,n(x¯μ)2=[n(x¯μ)](x¯μ)

n(x¯μ)2p0

我们留下了这个词

[n(1ni=1n(Xiμ)2σ2)]

@whuber在对此答案的评论中提供了一个致命示例,对此我们,我们想确定不是常数。Whuber指出,如果为伯努利则该数量为常数。因此,排除发生这种情况的变量(也许其他二分法,而不仅仅是二进制?),剩下的就是X 1 / 2 0 / 1(Xiμ)2Xi(1/2)0/1

E(Xiμ)2=σ2,Var[(Xiμ)2]=μ4σ4

因此,所研究的术语是古典中心极限定理的一个常见主题,并且

n(s2σ2)dN(0,μ4σ4)

注意:以上结果当然也适用于正态分布的样本-但在最后一种情况下,我们还提供了有限样本卡方分布结果。


3
+1没有理由检查一般的二分分布,因为它们都是伯努利的规模和位置版本:对伯努利的分析就足够了。我的模拟(样本大小为)证实了结果。 χ 2 1101000χ12
ub

@whuber感谢您的检查。您当然对Benroulli是所有人的母亲是正确的。
Alecos Papadopoulos 2014年

10

您已经对问题有详细的答案,但是让我提供另一个答案。实际上,基于以下事实,可以提供更短的证明:

S2=1n1i=1n(XiX¯)2

不依赖于。渐近地,是否将因子更改为也无关紧要,为方便起见,我将这样做。然后我们有1E(X)=ξ 11n11n

n(S2σ2)=n[1ni=1nXi2X¯2σ2]

现在我们假设不失一般性,,我们注意到ξ=0

nX¯2=1n(nX¯)2

由于第二项受概率限制(由CLT和连续映射定理确定),所以它的概率极限为零,即为。现在,根据Slutzky定理和CLT得出渐近结果,因为Op(1)

n[1nXi2σ2]DN(0,τ2)

其中。这样就可以了。τ2=Var{X2}=E(X4)(E(X2))2


这当然更经济。但是,请重新考虑假设是多么无害。例如,它排除了伯努利()样本的情况,并且正如我在回答结尾提到的那样,对于这种样本,这种渐近结果不成立。p = 1 / 2ËX=0p=1个/2
Alecos Papadopoulos

@AlecosPapadopoulos的确可以,但是数据始终可以居中,对吗?我的意思是,我们可以使用这些变量。对于伯努利案,有什么阻止我们这样做的?
一世=1个ñX一世-μ-X¯-μ2=一世=1个ñX一世-X¯2
JohnK

@AlecosPapadopoulos哦,是的,我看到了问题。
JohnK

我已经就此事写了一小段,我认为是时候将其上传到我的博客了。如果您有兴趣阅读,我会通知您。在这种情况下,样本方差的渐近分布很有趣,甚至样本标准偏差的渐近分布也很有趣。这些结果适用于任何二分法随机变量。p=1个/2
Alecos Papadopoulos

1
愚蠢的问题,但是如果不正常,我们怎么能假设是辅助的呢?还是总是是辅助的(我猜是平均均值参数化),但仅当样本均值是根据巴苏定理的完全充分统计量(即正态分布)时才与样本均值无关?X i S 2小号2X一世小号2
Chill2Macht

3

AlecosJohnK的出色答案已经得出了您想要的结果,但是我想说明一下有关样本方差的渐近分布的其他信息。

看到使用正态分布呈现的渐近结果是很常见的,这对于陈述定理很有用。但是,实际上,样本统计量的渐近分布的目的是,当大时,它可以使您获得近似分布。您可以为大样本逼近做出很多选择,因为许多分布具有相同的渐近形式。在样本方差的情况下,我认为大的极佳近似分布由下式给出:ññ

小号ñ2σ2-df=dFñdFñ

其中和是峰度参数。该分布渐近等效于从定理得出的正态近似值(随着自由度趋于无穷大,卡方分布收敛于正态)。尽管存在这种等效关系,但您仍希望近似分布具有各种其他属性:dFñ2/V小号ñ2/σ2=2ñ/κ-ñ-3/ñ-1个κ=μ4/σ4

  • 与直接从定理中得出的正态近似不同,此分布为关注统计量提供了正确的支持。样本方差是非负的,并且此分布具有非负的支持。

  • 在基础值呈正态分布的情况下,这种近似值实际上就是精确的采样分布。(在这种情况下,我们有给出了,这是大多数文本中使用的标准格式。)因此,它构成的结果在一个重要的特殊情况下是精确的,同时仍然是一个合理的近似值。更一般的情况。κ=3dFñ=ñ-1个


上述结果的推导:O'Neill(2014)详细讨论了样本均值和方差的近似分布结果,并且本文提供了许多结果的推导,包括当前的近似分布。

该推导从问题的极限结果开始:

ñ小号ñ2-σ2ñ0σ4κ-1个

重新排列此结果,我们得到近似值:

小号ñ2σ2ñ1个κ-1个ñ

由于卡方分布是渐近正态的,因此我们有:dF

-dFdF1个dFñdF2dF=ñ1个2dF

取(产生上述公式),得出,确保卡方分布是渐近的。等效于极限定理的正态近似。dFñ2/V小号ñ2/σ2dFñ2ñ/κ-1个


一个经验上有趣的问题是,这两种渐近结果中的哪一种在各种基础数据分布下的有限样本情况下效果更好。
lzstat

是的,我认为这将是一个非常有趣(且可发布)的模拟研究。由于本公式基于样本方差方差的峰度校正,因此,我希望当您的峰度参数的基本分布距离中胚层远时,即当峰度-更正最重要)。由于需要从样本中估计峰度,因此什么时候总体性能会有实质性改善是一个悬而未决的问题。
恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.