我正在比较一个样本,并检查它是否以某种离散形式分布。但是,我不确定Kolmogorov-Smirnov是否适用。维基百科似乎暗示没有。如果不是,如何测试样本的分布?
我正在比较一个样本,并检查它是否以某种离散形式分布。但是,我不确定Kolmogorov-Smirnov是否适用。维基百科似乎暗示没有。如果不是,如何测试样本的分布?
Answers:
它不适用于离散分布。例如,请参阅http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm。
有什么原因不能使用卡方拟合优度检验?有关更多信息,请参见http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm。
就像统计中的情况一样,这取决于您的意思。
如果您的意思是“我在一个离散分布的样本上计算出我的测试统计量,然后查询标准表”,那么您得到的真实I型错误率将低于您选择的错误率(可能要低很多)。
多少取决于分布的“离散程度”。如果任何一项结果的可能性相当低(因此,预期绑定值在数据中的比例会很低),那么这将无关紧要-许多人在运行5时不会有问题以4.5%的百分比表示。因此,例如,如果您要在[1,1000]上测试离散统一,则不必担心。
但是,如果值被绑的可能性很高,那么可以标记出对I型错误率的影响。如果在需要0.05时获得0.005的显着性水平,则可能是一个问题,因为它将相应地影响功效。
相反,如果您的意思是“我对从离散分布中抽取的样本计算出我的测试统计量,然后使用适合我的情况的临界值/计算出合适的p值”(例如,通过排列检验),则该检验从获得正确的I类错误率的意义上讲,它当然是有效的-当然,取决于测试统计数据本身的离散性。(尽管针对连续的情况通常会针对您的特定目的进行更好的测试。)
请注意,测试统计信息本身的分布不再是无分布的,而是通过排列检验避免了该问题。
因此,有时即使使用离散分布也可以使用标准表,即使这样做不可行,也不是测试统计量,而是您要使用的关键值/ p值。