我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。
按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。
这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。
考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案)
编辑:
我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案:
Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。
幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。
至于为什么我要首先测试正态分布:
一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。