1
测试大型数据集的正态性-可靠性如何?
我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。 按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。 这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。 考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案) 编辑: 我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案: Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。 幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。 至于为什么我要首先测试正态分布: 一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。