初学者问题:
我想测试两个离散数据集是否来自同一分布。我建议进行一次Kolmogorov-Smirnov检验。
Conover(《实用非参数统计》,3d)似乎说Kolmogorov-Smirnov检验可用于此目的,但其行为是“保守的”且具有离散分布,我不确定这在这里意味着什么。
DavidR 在另一个问题上的评论说:“ ...您仍然可以基于KS统计量进行α级测试,但是您必须找到其他方法来获得临界值,例如通过仿真。”
dgof R软件包(article,cran)中的ks.test()版本增加了stats软件包的ks.test()默认版本中不存在的某些功能。除其他外,dgof :: ks.test包含以下参数:
Simulation.p.value:仅在离散拟合优度测试中指示是否通过蒙特卡洛模拟计算p值的逻辑。
Simulator.p.value = T的目的是完成DavidR的建议吗?
即使是这样,我也不确定是否可以真正使用dgof :: ks.test进行两个样本的测试。看起来它仅提供了两个样本的连续分布测试:
如果y是数字,则对从相同连续分布中得出x和y的零假设进行两次抽样检验。
或者,y可以是命名连续(累积)分布函数(或此类函数)的字符串,或给出离散分布的ecdf函数(或stepfun类的对象)。在这些情况下,对生成x的分布函数为分布y ...的零进行一次样本检验。
(背景细节:严格来说,我的基础分布是连续的,但是数据往往位于少数几个点附近。每个点都是模拟的结果,并且是-1和1之间的10或20个实数的平均值1.到模拟结束时,这些数字几乎总是非常接近.9或-.9,因此均值聚集在几个值附近,我将它们视为离散值,模拟很复杂,我没有认为数据遵循众所周知的分布的原因。)
忠告?