测试大型数据集的正态性-可靠性如何?


12

我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。

按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。

在此处输入图片说明

在此处输入图片说明 在此处输入图片说明

这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。

考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案

编辑:

我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案

Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。

幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。

至于为什么我要首先测试正态分布:

一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。


11
没有分数测试;任何用途的任何测试,任何合理的显着性水平都将明确拒绝。无论您正在阅读什么指南,都会误导您。您所说的“可靠”到底是什么意思。您指的是夏皮罗·威尔克的什么“局限性”?我几乎同意您所链接的答案中的说法……“我从未遇到过进行正常测试是正确的事情”(我至少见过一次我认为是正常情况的情况)正确的做法,但人们几乎总是出于不好的理由这样做)。
Glen_b-恢复莫妮卡2014年

@Glen_b:偶然地,我发现自己前几天使用Shapiro-Wilk来量化针对零值的证据,这是学术界的一个人错误地认为它大于等级样本中的值。我想知道这是否是合理的用法。
Nick Stauner 2014年

@NickStauner,对于一条评论,我的回复变得太久了,我不想用关于您的帖子的一连串评论来劫持这个问题。可能性:我们在聊天中交谈,或者您发布有关此问题的信息(我可以在其中提出广泛的答案),或者我们以其他方式(例如电子邮件)进行讨论。
Glen_b-恢复莫妮卡2014年

Answers:


14

我不明白你为什么要打扰。这显然是不正常的–在这种情况下,图形检查对我来说似乎足够了。从看起来不错的清晰伽玛分布中,您已经获得了大量观察结果。随便去吧。如果需要的话,请 –我将推荐参考发行。

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
在此处输入图片说明

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

1.45.92.9

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.