为什么方差差异的F检验对正态分布的假设如此敏感,即使对于大?
我试图在网上搜索并访问了图书馆,但是没有一个给出好的答案。它说测试对于违反正态分布假设非常敏感,但是我不明白为什么。有人对此有很好的答案吗?
为什么方差差异的F检验对正态分布的假设如此敏感,即使对于大?
我试图在网上搜索并访问了图书馆,但是没有一个给出好的答案。它说测试对于违反正态分布假设非常敏感,但是我不明白为什么。有人对此有很好的答案吗?
Answers:
我假设您是指在检验一对样本方差是否相等时进行方差比的F检验(因为这是对正态性非常敏感的最简单的检验;对于ANOVA的F检验敏感性较低)
如果您的样本是从正态分布中提取的,则样本方差具有缩放的卡方分布
想象一下,您拥有的分布比正态分布更重,而不是从正态分布中获取数据。然后,相对于按比例缩放的卡方分布,您将获得太多的大方差,并且样本方差进入最右边尾部的概率对从中提取数据的分布尾部非常敏感。(也有太多小的变化,但效果不太明显)
现在,如果两个样本均从较重的尾部分布中提取,则分子上的较大尾部将产生过量的大F值,而分母上的较大尾部将产生过量的小F值(反之亦然)
即使两个样本具有相同的方差,这两种影响也会趋于导致两尾测试的排斥。这意味着当真实分布的尾部比正常情况重时,实际显着性水平往往会高于我们想要的水平。
相反,从较轻的尾部分布中抽取样本会产生样本方差的分布,而尾部的分布太短-与使用正态分布的数据相比,方差值往往更“中等”。同样,在远处的上尾部的冲击比下尾部更强。
现在,如果两个样本均从该较轻的尾部分布中抽取,则这将导致中值附近的F值过多,并且任一尾巴中的F值都太少(实际显着性水平将低于期望值)。
随着样本数量的增加,这些影响似乎并不一定会减少很多。在某些情况下,情况似乎会变得更糟。
通过部分说明的方式,这里是10000样本方差(对于)为正常,和均匀的分布,缩放为具有相同的平均值作为:
很难看到远处的尾巴,因为它与峰值相比相对较小(对于,尾巴中的观测值以合理的方式超出了我们绘制的位置),但是我们可以看到一些影响方差的分布。通过卡方cdf的逆变换来转换它们可能更具启发性,
在正常情况下看起来应该是均匀的(应如此),在t情况下,上尾部有一个大峰(下尾部有一个小峰),而在统一情况下则更像山丘,但宽阔峰值大约在0.6到0.8之间,极端情况的概率要比从正态分布中抽样时的概率低得多。
还有很多其他案例需要进行全面研究,但这至少可以使人对效果的种类和方向以及它的产生方式有所了解。