测试大型数据集的正态性-可靠性如何？

我正在检查数据集中包含46840个双精度值（一部分从1到1690）的两组数据的一部分。为了分析这些组之间的差异，我首先检查了值的分布以选择正确的测试。

按照有关正常性测试的指南，我做了一个qqplot，直方图和boxplot。

在此处输入图片说明

这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的，因此我也想测试分布的正态性。

考虑到数据集的大小和R中shapiro-wilks检验的局限性，应如何测试给定分布的正态性并考虑数据集的大小，这是否可靠？（请参阅对此问题的公认答案）

编辑：

我指的Shapiro-Wilk检验的局限性在于，要测试的数据集仅限于5000点。引用有关此主题的另一个好答案：

Shapiro-Wilk检验的另一个问题是，当您向它提供更多数据时，被拒绝原假设的机会就更大。因此，发生的情况是，对于大量数据，甚至可以检测到与正态性的很小偏差，从而导致出于实际目的拒绝原假设事件，数据已经足够正常。

幸运的是，shapiro.test通过将数据大小限制为5000，可以保护用户免受上述影响。

至于为什么我要首先测试正态分布：

一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。

r normal-distribution normality-assumption large-data

— 德梅尔
source

没有分数测试；任何用途的任何测试，任何合理的显着性水平都将明确拒绝。无论您正在阅读什么指南，都会误导您。您所说的“可靠”到底是什么意思。您指的是夏皮罗·威尔克的什么“局限性”？我几乎同意您所链接的答案中的说法……“我从未遇到过进行正常测试是正确的事情”（我至少见过一次我认为是正常情况的情况）正确的做法，但人们几乎总是出于不好的理由这样做）。

— Glen_b-恢复莫妮卡2014年

@Glen_b：偶然地，我发现自己前几天使用Shapiro-Wilk来量化针对零值的证据，这是学术界的一个人错误地认为它大于等级样本中的值。我想知道这是否是合理的用法。

— Nick Stauner 2014年

@NickStauner，对于一条评论，我的回复变得太久了，我不想用关于您的帖子的一连串评论来劫持这个问题。可能性：我们在聊天中交谈，或者您发布有关此问题的信息（我可以在其中提出广泛的答案），或者我们以其他方式（例如电子邮件）进行讨论。

— Glen_b-恢复莫妮卡2014年

我不明白你为什么要打扰。这显然是不正常的–在这种情况下，图形检查对我来说似乎足够了。从看起来不错的清晰伽玛分布中，您已经获得了大量观察结果。随便去吧。如果需要的话，请kolmogorov-smirnov –我将推荐参考发行。

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
在此处输入图片说明

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

$\approx1.4$ $\approx5.9$ $\approx2.9$

— 尼克·斯陶纳
source