如何测试数据样本是否符合伽玛分布族?


13

我有一个从连续随机变量X生成的数据样本。从我使用R绘制的直方图中,我想也许X的分布服从一定的Gamma分布。但是我不知道这种伽马分布的确切参数。

我的问题是如何测试X的分布是否属于Gamma分布族?拟合检验有一些好处,例如Kolmogorov-Smirnov检验,Anderson-Darling检验等,但是使用这些检验的限制之一是应事先知道理论分布的参数。谁能告诉我如何解决这个问题?


也许我错过了一些东西,但是如果您已经知道用于测试分布拟合的测试,并且您只需要知道理论分布的值,那么您可以简单地使用伽玛参数的最大似然估计量分布在数据上以获得参数的估计值。然后,您可以使用这些估计值来定义测试中的理论分布。
David

大卫,谢谢您的回答。答案也是我一直在想的,但是我不确定是否有一些理论可以支持这个想法,您能为我回答吗?
user8363 2012年

如果您使用R,则可能有兴趣查看fitdistrplus软件包,该软件包具有执行此类操作的功能。
gung-恢复莫妮卡

Answers:


8

我认为这个问题需要精确的统计检验,而不是直方图比较。当使用带有估计参数的Kolmogorov-Smirnov检验时,与没有估计参数的情况相反,空值下的检验统计量的分布取决于被测分布。例如,使用(在R中)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

导致

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

当我们得到

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

对于相同的样本x。因此,显着性水平或p值必须通过零值下的Monte Carlo模拟确定,从而从估计分布下模拟的样本中产生Kolmogorov-Smirnov统计的分布(假设观察到的样本,结果略有近似)来自另一个分布,即使在null下也是如此。


1
(+1)我不明白为什么在估计分布下模拟样本是正确的。我本以为我们需要先验参数,然后从所有可能的分布中进行抽样...您能解释一下吗?
猫王2012年

1
西安,您的回答正是我所担心的。您的意思是“当使用带有估计参数的Kolmogorov-Smirnov检验时,空值下的检验统计量的分布取决于所检验的分布”。但是,我们不知道X的分布,更确切地说,我们不知道在零假设下X的分布参数,因此检验统计量的分布,因此,我们使用蒙特卡洛。您是否可以通过不使用monte carlo来获取P值来解决其他问题?谢谢
user8363 2012年

考虑到“观察到的样本甚至在空值下仍来自另一个分布”这一事实,引导样本重新估计每个重复样本的参数是否合适?
猫王2012年

1
@Elvis(1):这是经典统计数据,而不是拟合优度问题的贝叶斯解决方案。对于具有位置比例参数的分布,用于模拟模拟样本的参数的选择无关紧要。
西安

1
@猫王(2):我刚刚和我的学生讨论了一些事情!Bootstrap将有助于评估在数据的真实分布下而不是空值下的Kolmogorov-Smirnov距离的行为!Fisher-Neyman-Pearson原理是,重要的是零值下的Kolmogorov-Smirnov距离的行为,因此,如果观察到的距离在零值下的分布太极端,则将其拒绝。
西安

4

假设数据的伽玛分布,计算参数的MLE,然后将理论密度与数据的直方图进行比较。如果两者非常不同,则伽马分布将无法很好地近似您的数据。对于正式测试,您可以计算例如Kolmogorov-Smirnoff检验统计量,将最佳拟合的伽玛分布与经验分布进行比较,并检验显着性。


3
+1,这是一个可靠的答案。但是,我建议您对照理论伽玛而不是直方图来检查qq图,这样会更容易评估偏差。
gung-恢复莫妮卡

1
问题在于,KS测试假设理论分布是事先给出的,而不是根据数据估算的。西安(部分)回答了这一点...
猫王(Elvis)2012年

您的意思是我们首先使用该数据样本获得MLS估计器,并使用GLS分布中的MLS估计器的值,然后通过KS检验将数据与Gamma分布(带有估计参数)进行比较?
user8363 2012年

猫王,请您告诉我如何解决理论分布的参数未知且需要估计的问题。在此cas中,如何使用KS检验来对假设进行相对准确的判断,谢谢!
user8363 2012年

1
@猫王:我认为在伽马分布的情况下,不可能精确推导。cdf本身不提供封闭形式。此外,形状参数既不是比例尺也不是位置这一事实意味着,形状参数的每个值都有不同的分布……
西安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.