Kolmogorov-Smirnov检验对离散分布有效吗?


29

我正在比较一个样本,并检查它是否以某种离散形式分布。但是,我不确定Kolmogorov-Smirnov是否适用。维基百科似乎暗示没有。如果不是,如何测试样本的分布?


+1在帮助页面上提供了一个错误的示例,该示例错误地将KS测试应用于具有(许多)联系的数据:Excel统计信息的附加页面,网址real-statistics.com/non-parametric-tests/goodness-of-fit-测试/…。由于许多原因,结果是错误的。 请注意!
ub

离散零分布的KS测试可用:en.wikipedia.org/wiki/…–
Astrid

Answers:


14

它不适用于离散分布。例如,请参阅http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm

有什么原因不能使用卡方拟合优度检验?有关更多信息,请参见http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm


抱歉入侵,但我真的不明白为什么它仅适用于连续分发(KS和其他验证测试)。有人可以向我解释这个事实吗?
毛里齐奥

6
@Maurizio-KS检验统计量在所有连续分布下均具有相同的分布,但是如果实际分布不是连续的,则尝试构造一个水平检验(假设该分布是连续的),则实际检验水平为小于α。(比照Lehmann和Romano 测试统计假设,第三版,第584页)。您仍然可以基于KS统计量进行α级测试,但是您必须找到其他方法来获取临界值,例如通过仿真。ααα
DavidR 2011年


7

就像统计中的情况一样,这取决于您的意思

  1. 如果您的意思是“我在一个离散分布的样本上计算出我的测试统计量,然后查询标准表”,那么您得到的真实I型错误率将低于您选择的错误率(可能要低很多)。

    多少取决于分布的“离散程度”。如果任何一项结果的可能性相当低(因此,预期绑定值在数据中的比例会很低),那么这将无关紧要-许多人在运行5时不会有问题以4.5%的百分比表示。因此,例如,如果您要在[1,1000]上测试离散统一,则不必担心。

    但是,如果值被绑的可能性很高,那么可以标记出对I型错误率的影响。如果在需要0.05时获得0.005的显着性水平,则可能是一个问题,因为它将相应地影响功效。

  2. 相反,如果您的意思是“我对从离散分布中抽取的样本计算出我的测试统计量,然后使用适合我的情况的临界值/计算出合适的p值”(例如,通过排列检验),则该检验从获得正确的I类错误率的意义上讲,它当然是有效的-当然,取决于测试统计数据本身的离散性。(尽管针对连续的情况通常会针对您的特定目的进行更好的测试。)

    请注意,测试统计信息本身的分布不再是无分布的,而是通过排列检验避免了该问题。

因此,有时即使使用离散分布也可以使用标准表,即使这样做不可行,也不是测试统计量,而是您要使用的关键值/ p值。


和往常一样,格伦,您的答案是高质量。但是,也许最好的部分是您实际上已经回应了我在这篇文章中关于统计学家所说的“取决于”的笑话!stats.stackexchange.com/questions/182442/...
Sycorax说恢复莫妮卡

1
@ user777并非偶然;这让我感到很有趣,当我读到这个问题时,我一直在想:“要看情况而定”……所以我确保明确地说出来,以回应您的帖子。
Glen_b-恢复莫妮卡

1
我的晚上刚好。干杯!
Sycorax说恢复莫妮卡

2

XFFXXXFX=X

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.