偏离ANOVA中的正态性假设:峰度或偏度更重要吗?


12

Kutner等人应用线性统计模型。陈述了以下有关偏离ANOVA模型正态性假设的内容:就推断的影响而言,误差分布的峰度(比正态分布或多或少达到峰值)比分布的偏度更为重要

我对此声明感到有点困惑,并且没有在书中或在线上找到任何相关信息。我很困惑,因为我还了解到,尾巴较重的QQ曲线表明线性回归模型的正态性假设“足够好”,而偏斜的QQ曲线则更受关注(即,进行转换可能会合适) 。

我是否对ANOVA进行同样的推理,并且对单词的选择(就推理的影响而言更重要)选择得很差,是否正确?也就是说,偏斜的分布会产生更严重的后果,应避免,而少量峰度是可以接受的。

编辑:正如rolando2所说,很难说一个在所有情况下都比另一个更重要,但是我只是在寻找一些一般的见识。我的主要问题是,我被告知,在简单的线性回归中,尾巴较重(=峰度?)的QQ曲线是可以的,因为F检验对此非常有力。另一方面,倾斜的QQ曲线(抛物线形)通常是一个更大的问题。尽管ANOVA模型可以转换为回归模型,并且应该具有相同的假设,但这似乎与我的教科书为ANOVA提供的指导方针直接背道而驰。

我确信我忽略了某件事,或者我有一个错误的假设,但是我无法弄清楚这可能是什么。


3
DeCarlo(1997)在对峰度的评论中提出了完全相反的观点,即在ANOVA和其他均值均等检验中,偏度更为重要。您可能会发现第297页的引用很有用:columbia.edu/~ld208/psymeth97.pdf
Anthony

1
我认为,如果可以将其解决为诸如“歪斜对推理比峰度重要得多,以至于___级别的偏斜通常会扭曲结果,就像___级别的峰度那样,这样的问题就可以产生最大的效果” 。” 如果没有这种量化,仅说一个或另一个更重要对我们没有多大帮助。
rolando2'1

这种模拟emis.de/journals/HOA/ADS/Volume7_4/206.pdf由Khan和Rayner(2003)在《应用数学与决策科学学报》中指出:“ ANOVA和Kruskal-Wallis检验都受峰度的影响更大误差分布而不是其偏斜度”(第204页)。
bsbk

涉及stats.stackexchange.com/questions/38967/…是有关两个样本t检验的一个极为紧密相关的问题-有效地是一个在因子上具有两个水平的单向方差分析(Away ANOVA)。引用,因为现有答案均不包含引用,因此对此问题的回答者可能希望对其进行研究。
银鱼

我同意@ rolando2的观点:“偏斜度比峰度差”,反之亦然,这是一个空洞的陈述,没有提及偏斜度/峰度的程度。而且还需要考虑更多!例如,对此类违反正常性的鲁棒性部分取决于组的大小是否相等,而对偏斜的鲁棒性则取决于偏斜的方向 -如果一个组以一种方式偏斜,而另一组偏斜一个偏斜,则更糟。相反,如果两组都朝相同的方向倾斜。(这是从记忆和重新t检验中得出的,但这是一种方差分析。)
Silverfish

Answers:


6

困难在于偏度和峰度是依赖的;它们的效果无法完全分开。

问题在于,如果要检查高度偏斜分布的影响,则还必须具有峰度高的分布。

特别是峰度*偏度。2 + 12+1

*(普通缩放的第四时峰,而不是过度峰度)

Khan和Rayner(在较早的答案中提到)与一个可以研究偏斜和峰度影响的家庭一起工作,但他们无法避免这个问题,因此他们试图将它们分开的尝试严重限制了可以探索偏度。

如果一个人保持峰度()不变,则不能使偏度大于。如果希望考虑单峰分布,则偏斜度会受到更大的限制。β2β21

例如,如果要查看高偏斜度的影响(例如,偏斜度> 5),峰度小于26的分布将无法获得!

因此,如果要调查高偏斜度的影响,就无法避免调查高峰度的影响。因此,如果您尝试将它们分开,则实际上使您无法评估将偏度增加到较高水平的影响。

也就是说,至少对于他们考虑的分销家庭而言,在他们之间的关系所构成的限制内,Khan和Rayner的调查确实表明,峰度是主要问题。

但是,即使结论是完全笼统的,但如果您的分布恰好具有(例如)偏度5,则说“但不是偏度是问题!”可能不太舒服。-一旦偏度,就无法使峰度成为正常值,并且超出此范围,随着偏度的增加,最小可能峰度会迅速增长。>2


11

Khan和Rayner撰写的对多样本位置问题的通用测试的非正规性的稳健性”中解决了此问题。

他们发现,方差分析测试受峰度的影响远大于偏度,并且偏度的影响与其方向无关。

如果怀疑偏离正态性,则Kruskal-Wallis检验可能是更好的选择。Kruskal-Wallis检验对于偏离正态性的分析更可靠,因为它检验了治疗中位数相同的假设。方差分析检验治疗手段相同的假设。


这是否还表明我应该针对线性回归和方差分析对QQ图进行不同的解释?我完成的大多数转换都减少了偏斜度,但尾巴略重(=峰度?)。我的印象是F检验足够强大,可以应付后者,但不能应付前者。还是这“重尾巴还可以”对我来说是一种误解?我无法想象两者之间存在如此根本的区别,因为ANOVA模型也可以重写为线性回归模型。
Zenit 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.