有哪些标准的统计检验来查看数据是否遵循指数分布或正态分布?


12

有哪些标准的统计检验来查看数据是否遵循指数分布或正态分布?


2
最好的测试可能取决于您为什么要正确测试正态性/指数性(因此有些背景会有所帮助),但是您始终可以使用Kolmogorov Smirnov测试来测试给定的数据集是否适合任何预先指定的分布(en.wikipedia .org / wiki / Kolmogorov%E2%80%93Smirnov_test)。有很多方法专门用于正态分布:en.wikipedia.org/wiki/Normality_test
Macro

我正在处理的变量可能遵循正态分布或指数分布。另外,我有一个我不在乎的因素。但是,这会给我的数据带来一些变化。因此,我想对变量进行归一化以抑制此有害因素的影响。因此,我认为最好根据每个变量的基础分布对其进行归一化。这就是为什么我需要测试来确定这两个分布之间的原因。
smo 2012年

1
规范化在这句话中的含义是什么:我认为最好根据变量的基础分布来规范化每个变量
Macro

2
虽然不是测试,但QQ图非常适合快速直观地检查您的数据是否与分布匹配。
naught101

Answers:


13

似乎您正在尝试确定是使用正态分布还是指数分布对数据进行建模。这对我来说似乎有些奇怪,因为这些分布彼此非常不同。

正态分布是对称的,而指数分布则向右严重偏斜,没有负值。通常,来自指数分布的样本将包含许多相对接近于观测以及一些从向右偏远的观察。这种差异通常很容易以图形方式看到。000

这里是我的模拟的示例观测从均值的正态分布和方差和均值的指数分布和方差:2 4 2 4n=1002424

正态与指数:模拟数据

如上图所示,可以使用直方图,箱形图和散点图查看正态分布的对称性和指数的偏度。

另一个非常有用的工具是QQ图。在下面的示例中,如果样本来自正态分布,则这些点应大致沿着直线。如您所见,普通数据就是这种情况,而指数数据不是这种情况。

QQ-模拟数据图

如果由于某种原因进行图形检查还不够,您仍然可以使用测试来确定您的分布是正态分布还是指数分布。由于正态分布是一个比例尺和位置系列,因此您需要使用在比例尺和位置变化下不变的检验(即,如果将尺寸从英寸更改为厘米或添加至所有观察结果)。+1

当原假设为正态分布而替代假设为正态分布时,最有效的位置和尺度不变性检验由统计量 其中是样本均值,是样本中最小的观测值,是样本标准偏差。如果太大则拒绝指数性的正态性。ˉ X X1小号ŤêÑ

TE,N=x¯x(1)s
x¯x(1)sTE,N

该测试实际上是Grubbs针对异常值的测试的一种单面版本。您会在大多数统计软件中发现此问题(但是请确保使用正确的版本-异常测试有几种替代测试统计信息!)。

参考对是最强大的测试:TE,N第4.2.4 测试正态慧聪Thode。


OP询问您是否测试正常性,如果您测试指数使用哪种测试,那么在另一情况下您会选择哪种测试?我没有读过inot的陈述,即他建议对同一数据集尝试两种测试。
Michael R. Chernick

我以这种方式来解释它,因为OP在对该问题的后续评论中写道:“我要处理的变量很可能遵循正态分布或指数分布。这就是为什么我需要对在这两种分布之间做出决定。”
MånsT

我没注意到。在这种情况下,您的答案非常合适。我的回答好像是他一次测试一次。
Michael R. Chernick

@Michael:我在阅读原始问题时也这样解释,但在阅读评论后决定写我的答案。否则,我认为您的(+1)答案没有什么可补充的(除了我在那条评论中所做的简短评论之外)。
MånsT

5

对于指数分布,可以使用称为Moran检验或Bartlett检验的检验。测试统计量涉及已记录的样本均值 以及样本均值 在原假设下,我们大约有 和双面测试。此测试是针对伽玛替代品设计的。¯ ÿ ·· 登录ÿ ÿ Ñ = b Ñ × {日志ˉ ý - ¯ 登录ÿ }BnY¯logY¯Yi Ñχ 2Ñ - 1

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

请参阅工程设计中的 KC Kapur和LR Lamberson 可靠性。威利1977。


2
我遇到了一些关于指数测试的最新资源。1)一篇文章:A. Henze,N.和Meintanis,SG(2005):“最近和经典的指数检验:部分比较研究”。Metrika,第一卷 61,第29–45页。2)一个名为“ exptest”的CRAN R包,用于实现上述文章的测试。
伊夫2013年

B_n的分布不是很清楚。是n-1 df的卡方,还是n-1 df的n乘以n-1?
Dovini Jayasinghe

按书面方式工作。您可以使用几行R代码进行检查。
伊夫(Yves)

谢谢。所以应该是我所看到的乘法。从某种意义上说,自由度应为n-1?
Dovini Jayasinghe

抱歉,我错过了您关于该符号的问题。因此,统计量近似遵循具有个自由度的卡方分布。 n 1Bnn1
伊夫(Yves)

4

通常,安德森·达林(Anderson-Darling)和夏皮罗·威尔克(Shapiro-Wilk)被认为是最好的。针对指数Lillerfors测试是专门为此设计的。


5
可以通过详细说明为什么每个测试被认为比其他测试更好/更好来改善此答案。
naught101

从对正常(Anderson-Darling)和指数(Lillefors)的偏离出发,最有力的证明是这些测试更好。我认为根据测试的形式提供一个主观的解释并不容易。
Michael R. Chernick

3
@Michael:安德森·达林(Anderson-Darling)的正态性检验(如Shapiro-Wilk dito)在广泛的替代方案中具有可观的力量,但它当然不是最强大的(无论是一般还是平均水平)。测试的选择应取决于手头的选择。我从未听说过Lillerfors检验-您的意思是Lilliefors检验(实际上是对正态性的检验,而不是对指数性的检验)?
MånsT

当然,我指的是Lillefors指数测试,因为这是我建议的指数分布假设。我列出了Shapiro-Wilk和Anderson-Darling,因为据我所知,它们在正态性测试中是最强大的。您指的是更强大的测试?
Michael R. Chernick

1
这取决于您拥有的替代类型。例如,针对偏斜替代方案,样本偏斜通常比SW和AD更强大。后者是综合测试,平均而言是相当不错的,但是如果您知道您担心的是哪种非正态性,则最好使用定向测试(例如样本偏度测试,它针对偏斜替代方法) 。
MånsT

4

您是否考虑过使用图形方法查看数据的行为?

概率图技术通常涉及对数据进行排名,应用逆CDF,然后在笛卡尔平面上绘制结果。这使您可以查看几个值是否偏离假设的分布,并且可能是造成偏差的原因。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.