如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?


11

我为“受访者年龄”创建了一个直方图,并设法获得了一个非常漂亮的钟形曲线,由此得出的结论是正态分布。

然后,我在n = 169的SPSS中运行正态性检验。Kolmogorov-Smirnov检验的p值(Sig。)小于0.05,因此数据违反了正态性假设。

为什么测试表明年龄分布不正常,但直方图显示出钟形曲线,据我所知这是正常的?我应该遵循哪个结果?


8
为什么要测试正常性?
Glen_b-恢复莫妮卡(Monica)2014年

6
除了@Glen_b的出色注释Aksakal的出色答案之外,请注意,即使对于连续分布,KS要求事先知道均值和sd ,而不是根据数据估算。这实质上使KS测试无效。“ Kolmogorov-Smirnov检验只是历史的好奇心。永远不要使用它。” (D'Agostino在d'Agostino和Stephens中编辑,1986年)。如果有的话,请改用Shapiro-Wilks。
Stephan Kolassa 2014年

6
@Stephan Kolassa好的建议,但您的意思是Shapiro-Wilk。(MB Wilk和SS Wilks的建议经常被混淆或混淆;即使对于许多以英语为第一语言的人来说,这里用占位符作为英语中所有格的用法也可能造成混淆。)
Nick Cox

2
与@StephanKolassa的评论相关,请参阅Shapiro-Wilk是最好的正态性检验吗?...答案是不一定要根据您感兴趣的替代方法,但这通常是一个不错的选择。
银鱼

Answers:


34

我们通常知道变量不可能完全正态分布...

正态分布具有沿任一方向延伸的无限长尾巴-数据在这些极端情况下分布的可能性不大,但对于真正的正态分布,它在物理上必须是可能的。对于年龄,正态分布模型将预测数据的非零概率位于平均值之上或之下5个标准差-这将对应于物理上不可能的年龄,例如低于0或高于150。(尽管如果您查看一个人口金字塔,目前还不清楚,你为什么会想到年龄甚至近似正态分布摆在首位。)同样,如果你有高度的数据,这些数据直观地可能会采取更“正常状”分布,它只能是真正的 如果高度有可能低于0厘米或高于300厘米,则为正常。

我偶尔看到它暗示我们可以通过将数据居中为均值为零来避开此问题。这样,积极和消极的“中心年龄”都是可能的。但是,尽管这使负值在物理上都是合理的和可解释的(负中心值对应于低于均值的实际值),但是,一旦您确定了正常模型将以非零概率产生物理上不可能的预测的问题,这并没有解决。将建模的“中心年龄”解码回“实际年龄”。

...那么为什么要打扰测试呢?即使不精确,正态性仍然可以成为有用的模型

重要的问题不是真的数据是否完全正常- 在大多数情况下,即使没有运行假设检验,我们也无法确定先验情况-而是近似值是否足够接近您的需求。看到问题是正常性测试本质上是无用的吗?正态分布是方便用于许多目的的近似值。它很少是“正确的”-但通常不必完全正确才有用。我希望正态分布通常是一个适合人们身高的合理模型,但是对于正态分布来说,要想成为人们年龄的模型,就需要一个更为特殊的背景。

如果您确实确实需要执行正常性测试,那么Kolmogorov-Smirnov可能不是最佳选择:如评论中所述,可以使用功能更强大的测试。夏皮罗·威尔克(Shapiro-Wilk)对多种可能的选择具有强大的能力,并且具有无需事先知道真实均值和方差的优势。但要注意,在小样本中,可能仍未发现与正态性的较大偏差,而在大样本中,即使是很小(出于实际目的,无关紧要),与正态性的偏差也可能显示为“高度显着”(低p -值)。

“钟形”不一定是正常的

似乎您已被告知将“钟形”数据(在中间达到峰值且在尾部具有较低概率的对称数据)视为“正常”数据。但是正态分布要求其峰和尾具有特定的形状。乍一看,还有其他分布具有相似形状的分布,您可能也将其称为“钟形”分布,但不正常。除非您有大量数据,否则您不可能分辨出“它看起来像这种现成的分布,而不像其他分布”。如果你有大量的数据,你可能会发现它看起来并不喜欢带任何“关闭的,现成的”分配!但是在这种情况下,出于多种目的,

画廊“钟形”发行

正态分布是你过去使用的“钟形”; 该柯西具有更尖锐的峰和“重”(即包含多个概率)尾; 自由度为5 的t分布介于两者之间(正态为t且无穷大d,柯西为t且无穷df,所以这是有道理的);该拉普拉斯或双指数分布来自两个经重新缩放指数分布回到后端,导致比正常分布的更尖锐的峰已PDF形成; 在Beta分布是完全不同的-例如,它没有尾巴直达无穷大,而是具有尖锐的截止点-但中间仍然可以具有“驼峰”形状。实际上,通过玩弄参数,您还可以获得某种“歪斜的驼峰”,甚至是“ U”形-链接的Wikipedia页面上的图库对于该发行版的灵活性很有启发性。最后,三角形分布是有限支持上的另一种简单分布,通常用于风险建模中。

这些分布很可能都无法准​​确描述您的数据,并且存在许多其他许多形状相似的分布,但是我想解决这样一个误解,即“中间驼峰且大致对称意味着正常”。由于年龄数据存在物理限制,因此,如果您的年龄数据在中间“凸起”,那么仍然有可能获得比Beta甚至三角形分布更有限支持的分布模型,而不是像正常情况那样具有无限尾数的分布模型。请注意,即使您的数据确实是正态分布的,除非您的样本量相当大,否则直方图仍不太可能类似于经典的“钟形”。即使是来自拉普拉斯(Laplace)等分布的样本,由于其尖峰,其pdf也可与法线区分开来,

各种样本大小的普通样本和拉普拉斯样本

R代码

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

11

年龄不能来自正态分布。逻辑思考:年龄不能为负,但是正态分布允许为负数。

那里有许多钟形的分布。如果某些东西看起来呈钟形,并不表示它一定是正常的。

无法确定统计信息中的任何信息,包括数据的来源。形状是一个线索:钟形是正态分布的一个论点。另外,了解您的数据也非常重要。诸如年龄之类的变量通常会偏斜,这会排除正常现象。如前所述,正态分布没有边界,但有时用于有界变量。例如,如果平均年龄为20岁,标准差为1,则年龄<17或> 23的概率小于0.3%。因此,正态分布可能是一个很好的近似值

您可以尝试运行统计检验来检验正态性,例如Jarque-Bera,它考虑了样品的偏度和峰度。在某些情况下,峰度可能很重要。这在金融中非常重要,因为如果您使用正态分布对数据进行建模,但是实际上数据是从繁琐的分布中进行的,则最终可能会低估资产的风险和价格。

这将有助于您报告一些描述性统计数据或年龄和身高数据的直方图,例如均值,方差,偏度,峰度。


谢谢您的帮助,能否告诉我如何知道某些数据来自正态分布,例如在您的回答中指出年龄不能来自正态分布,其他数据(例如身高)又如何呢?我必须遵循的标准是什么?知道。我想了解更多有关这方面的信息,因为由于我对此不熟悉,因此我似乎对这个概念有误解。再次感谢。
NoraNorad 2014年

4
然而,正态分布经常用来作为一个近似的变量如年龄。这并不是真正的问题,因为您可以定义age_centredas,age - mean(age)并且您的变量的均值为0,并带有一些标准差,正值和负值。所以我不会那么严格。
蒂姆

3
您也不能为人设置负高度,但是如果这是一个很好的近似值,那么这对于我将高度描述为正态分布也不会构成障碍。为此,为什么要对只能是有限的测量使用具有无限边界的任何分布?正如@Tim所说,给定数据和给定目的都是近似的问题。
尼克·考克斯

1
我同意,有时正态分布可以很好地近似有限数据,但是问题是关于数据是否来自正态分布。
阿克萨卡(Aksakal)2014年

高中应届毕业生的年龄可能呈正态分布,并且如果以@Tim为中心的均值也呈负值。
ui_90jax 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.