我对某些数据的正态性有疑问:我已经进行了Kolmogorov检验,该检验表明p = .0000不正常,我不明白:我的分布偏度=-。497,并且峰度= -0,024
这是我的分布图,看起来非常正常...
(我有3个分数,而其中的每个分数都不正常,Kolmogorov检验的p值很大。我真的不明白。)
我对某些数据的正态性有疑问:我已经进行了Kolmogorov检验,该检验表明p = .0000不正常,我不明白:我的分布偏度=-。497,并且峰度= -0,024
这是我的分布图,看起来非常正常...
(我有3个分数,而其中的每个分数都不正常,Kolmogorov检验的p值很大。我真的不明白。)
Answers:
您没有理由断言您的数据是正常的。即使您的偏度和峰度都正好为 0,也并不意味着您的数据是正常的。偏离预期值的偏斜度和峰度表明存在非正态性,反之则不成立。有些非正态分布具有与正态相同的偏度和峰度。这里讨论一个示例,其密度复制如下:
如您所见,它显然是双峰的。在这种情况下,分布是对称的,因此只要存在足够的矩,则典型的偏度测度将为0(实际上所有常规测度将为0)。对于峰度,从接近均值的区域到第4矩的贡献将使峰度变小,但尾巴相对较重,这会使其变大。如果选择恰好正确,则峰度的值与正常值相同。
您的样本偏斜实际上在-0.5左右,这表明轻微的左偏斜。您的直方图和QQ图都指示相同-轻微的左偏分布。(对于大多数常见的正常理论程序而言,这种轻微的偏斜不太可能成为问题。)
您正在查看几种不同的非正态性指标,您不应期望它们先验地同意,因为它们考虑了分布的不同方面。对于少量的轻度非正常样本,他们经常会不同意。
现在有一个大问题:*为什么要测试正常性?*
[根据评论回复:]
我不太确定,虽然我应该在进行方差分析之前
这里有很多要点。
一世。如果使用正态性进行推断(例如假设检验),则正态性是假设,但对较大样本中的非正态性不是特别敏感-温和的非正态性影响不大,并且随着样本数量的增加,分布可能变得更加不正常,测试可能只会受到一点影响。
ii。您似乎正在测试响应的正常性(DV)。在ANOVA中,DV本身的(无条件)分布不被认为是正态的。您检查残差以评估关于条件分布的假设的合理性(即模型中假设为正态的误差项)-即,您似乎没有在寻找正确的东西。实际上,由于检查是针对残差进行的,因此您可以在模型拟合之后而不是之前进行检查。
iii。正式测试几乎没有用。这里感兴趣的问题是“非正态程度如何严重影响我的推论?”,假设检验实际上并没有对此做出回应。随着样本量的增加,测试变得越来越有能力检测出与正常值之间的微小差异,而对ANOVA中显着性水平的影响越来越小。也就是说,如果您的样本量足够大,则正常性测试通常会告诉您样本量很大,这意味着您可能不必担心太多。至少有一个QQ图你的视觉评估如何这是不正常的。
iv。在合理的样本量下,其他假设(例如方差和独立性相等)通常比轻微的非正态性重要得多。首先担心其他假设...但是,再次,正式测试不能回答正确的问题
v。根据假设检验的结果选择是进行ANOVA检验还是进行其他检验,往往会比单纯地假设假设不成立而具有更差的性能。(有多种方法适用于对被认为不正常的数据进行单因素方差分析的单向分析,只要您认为自己没有理由假设正态性就可以使用这些方法。有些方法具有很好的功效通常情况下,使用合适的软件,没有理由避免使用它们。)
[我相信我对这最后一点有参考,但是我现在找不到它;如果找到它,我会尝试再将其放入]
当样本数量较大时,Kolmogorov-Smirnov检验具有相当大的功效,因此可以很容易地拒绝零假设,即您的数据与正常值没有差异。换句话说,该测试有时会表明,即使对于大多数意图而言,分布在大样本中也不是正态的。
可以将其视为t检验。如果您有两个高度相差仅千分之一毫米的种群,那么即使统计上的差异是无意义的,一个巨大的样本也会从统计学上证明它们是不同的。
也许您可以依靠其他方法来确定数据的正常性。您使用的绘图以及倾斜/峰度值是两个很好的示例。
另一个主题似乎特别相关:正常性测试“基本上没有用”吗?
当完全指定零假设时,Kolmogorov–Smirnov检验是无分布的-如果根据数据估算均值和方差,则在检验正态性时(如果必须),请确保使用Lilliefors变体。这并不是要说其他答案。