在R中,我有348个度量的样本,并且想知道是否可以假定它正态分布以用于将来的测试。
本质上是在遵循另一个Stack答案之后,我正在使用以下命令查看密度图和QQ图:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
我没有统计方面的丰富经验,但是它们看起来像我所见过的正态分布示例。
然后,我正在运行Shapiro-Wilk测试:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
如果我正确地解释它,它告诉我可以否定原假设,即分布是正态的。
但是,我遇到了两个Stack帖子(here和here),这些帖子严重破坏了此测试的用处。看起来如果样本很大(348是否被认为是大样本?),它将总是说分布不正常。
我应该如何解释所有这些?我应该坚持使用QQ图并假设我的分布是正常的吗?
4
qq图似乎显示出尾部偏离正常。同样,任何有用的拟合优度检验都将在非常大的样本中拒绝,仅仅是因为检测到的与正常值之间的偏差很小。.这并不是对Shapiro-Wilk检验的批评,而是针对拟合优度检验的一个特征。
—
Michael R. Chernick
为什么假设正态分布对您很重要?根据这个假设,您打算做什么?
—
罗兰
只是为了补充Roland的评论,许多正式假设正态分布的测试在偏离正态性稍有偏离的情况下实际上是相当健壮的(例如,因为测试统计量的分布是渐近正确的)。如果您可以详细说明您打算做什么,则可能会得到更多有用的答案。
—
P.Windridge
@mdewey,敏锐的观察!它不是发病年龄,而是通过DNA甲基化测量的肿瘤“年龄”。
—
francoiskroll
我认为仅检查少量极端观测值是否是测量误差是值得的。
—
mdewey