我可以使用Kolmogorov-Smirnov检验和估计分布参数吗?


14

我已经读过,不应该使用Kolmogorov-Smirnov检验来检验参数已从样本中估算出来的分布的拟合优度。

将我的样本一分为二并使用前半部分进行参数估计,第二部分用于KS-检验有意义吗?

提前致谢


1
您想针对哪个发行版进行测试?为什么?
gung-恢复莫妮卡

我怀疑数据遵循指数分布。
sortega

Answers:


13

更好的方法是通过仿真计算p值的临界值。问题是,当您从数据而不是使用假设的值估计参数时,KS统计量的分布不会遵循零分布。

您可以忽略KS测试中的p值,而是根据与实际数据大小相同的候选分布(带有有意义的参数集)模拟一堆数据集。然后针对每个集合估计参数,并使用估计的参数进行KS测试。p值将是来自模拟集的检验统计信息所占比例比原始数据高得多的比例。


2
我发现解决方案有点混乱(至少对我来说);候选分布的“一组有意义的参数”是什么意思?您最初不知道候选分布的参数,您怎么知道什么是“有意义的参数集”?
内斯托尔

您可以尝试使用不同的参数集来查看它是否有所不同(对于正常情况没有影响,但是可能有些分布)。然后考虑一下数据背后的科学,或与该领域的专家交谈,您应该能够大致了解从哪里开始,例如,我知道尼日利亚成年男性的平均身高是多少,但我是可以肯定的是,它是正数,且小于3米。
格雷格·斯诺

@GregSnow我遇到了这篇文章,因为它与我当前的工作有关。我想知道您建议的方法是否有理论依据?也就是说,我们如何知道提议的“ p值”确实从0到1均匀分布?提议的p值似乎并没有成为常规的p值,因为Null假设现在是一组分布
renrenthehamster 2014年

@renrenthehamster,您的意思是,这就是为什么我建议在不同条件下进行模拟的原因。对于某些分布(我希望是正态分布),这无关紧要,但是对于其他分布,对于不同的真实参数值可能需要不同的截止值。如果是这种情况,那么用户(您)需要找到一个有意义的null进行测试,以同时包含分布的形状和您满意的一组参数或参数范围。
格雷格·斯诺

1
@LilyLong,过去的模拟更加困难且耗时,因此开发的测试比模拟要更快/更容易,一些早期的表格是通过模拟创建的。现在可以轻松地将许多测试替换为模拟,但是由于传统和简单性,我们可能需要更长的时间。
格雷格·斯诺

7

样本拆分也许可以减少统计信息分布的问题,但不能将其删除。

您的想法避免了估计值相对于总体值“太接近”的问题,因为它们基于相同的样本。

您无法避免它们仍然是估计的问题。检验统计量的分布不是列表的。

在这种情况下,它会提高无效值下的拒绝率,而不是显着降低它。

更好的选择是使用不假定参数已知的测试,例如Shapiro Wilk。

如果您不喜欢Kolmogorov-Smirnov类型的测试,则可以采用Lilliefors的测试方法。

也就是说,要使用KS统计量,但要使测试统计量的分布反映出参数估计的效果,请在参数估计下模拟测试统计量的分布。(它不再是无发行版的,因此每个发行版都需要新表。)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors在正态和指数情况下使用了模拟,但是对于任何特定的分布,您都可以轻松地进行模拟。在类似R的过程中,仅需一点时间即可模拟10,000或100,000个样本,并在null下获得测试统计量的分布。

[另一种选择是考虑确实存在相同问题的安德森·达林(Anderson-Darling),但根据D'Agostino和Stephens(Goodness-fit-techniques)的书判断,它似乎对此不太敏感。您可以改编Lilliefors的想法,但他们建议进行一个相对简单的调整,似乎效果很好。]

但是还有其他方法。例如,有一系列关于拟合优度的平滑测试(例如,请参见Rayner和Best的书),它们可以在许多特定情况下处理参数估计。

*影响仍然可能很大-可能比通常认为可接受的程度还大;Momo表达对此表示关注是正确的。如果较高的I型错误率(以及较平坦的功率曲线)出现问题,那么这可能不是一个改善!


1
您能否解释一下“样本拆分将解决统计信息分布问题”?我认为,可以从子样本中估算出参数,然后将其插入第二个子样本的KS测试中,但参数仍将与未在零分布中解决的抽样误差相关联。在我看来,这听起来好像是可以从正态分布中拆分样本,估算一个子样本中的标准差,然后与标准正态而不是第二个子样本中的t距离进行均值比较。
Momo 2012年

1
@Momo'解决'太强了;“减少”更好。如果参数是从相同的观察你的测试,然后估计-除非你解释这种效果-样品从分布的偏差将是“太小” -废品率变WAAY下降。使用另一个样本可以消除这种影响。从第二个样本进行估算得出的参数值仍然存在抽样误差。这将对测试产生一定的影响(提高I型错误率),但不会像使用相同的数据那样产生巨大的偏差。
Glen_b-恢复莫妮卡(Monica)2012年

@Momo我已经编辑了我的评论,以删除“解决”并替换为某些解释
Glen_b -Reinstate Monica 2012年

5

恐怕不能解决问题。我相信问题不在于参数是从同一样本估计的,而是从任何样本估计的。KS测试的通常零分布的推导没有考虑参考分布参数中的任何估计误差,而是将其视为给定的。另请参见Durbin 1973,他详细讨论了此问题并提供了解决方案。


1
这些实际上是两个单独的问题。如果您使用相同的数据估算参数并进行KS-Test,则通常会看到p值膨胀,因为在对数据进行测试之前,您实际上是在对数据进行调整。但是,如果使用两组独立的样本,则不是这种情况。但是,不精确的参数估计值可能会降低您在这种情况下获得的p值,因为现在您实际上是在针对(略微)错误的分布进行测试。
fgp 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.