您将如何测试或检查采样是否为IID(独立且完全相同)?请注意,我不是指高斯和完全分布式,而只是IID。
我想到的想法是,将样本重复分成相等大小的两个子样本,执行Kolmogorov-Smirnov检验,并检查p值的分布是否均匀。
欢迎对该方法发表任何评论,并提出任何建议。
开始赏金后的澄清: 我正在寻找可用于非时间序列数据的常规测试。
您将如何测试或检查采样是否为IID(独立且完全相同)?请注意,我不是指高斯和完全分布式,而只是IID。
我想到的想法是,将样本重复分成相等大小的两个子样本,执行Kolmogorov-Smirnov检验,并检查p值的分布是否均匀。
欢迎对该方法发表任何评论,并提出任何建议。
开始赏金后的澄清: 我正在寻找可用于非时间序列数据的常规测试。
Answers:
关于数据是否为IID的结论来自外部信息,而不是数据本身。您作为科学家需要根据数据的收集方式和其他外部信息来确定采用数据IID是否合理。
考虑一些例子。
方案1:我们从恰好是2个法线混合而成的单个分布中独立生成一组数据。
场景2:我们首先根据二项分布生成性别变量,然后在男性和女性中独立地从正态分布生成数据(但男性和女性的正态不同),然后删除或丢失性别信息。
在方案1中,数据是IID,在方案2中,数据显然不是完全相同的分布(男性和女性的分布不同),但是2个方案的2个分布与数据是无法区分的,您必须了解有关数据的方式生成以确定差异。
方案3:我对居住在城市中的人们进行了简单的随机抽样,并进行了一项调查并分析了结果,以推断出城市中的所有人。
方案4:我对居住在城市中的人们进行了简单的随机抽样,并进行了一项调查并分析了结果,以推断出该国所有人的情况。
在方案3中,对象被认为是独立的(感兴趣的人群的简单随机样本),但是在方案4中,由于他们是从感兴趣的人群的一小部分中选择的,因此他们不会被认为是独立的。依赖。但是这两个数据集是相同的,在这种情况下,我们打算使用数据的方式来确定它们是独立的还是依赖的。
因此,没有办法仅使用数据来证明数据是IID,图和其他诊断程序可以显示某些类型的非IID,但是缺少这些信息并不能保证数据是IID。您还可以与特定的假设进行比较(IID normal比仅IID更容易被反对)。任何测试仍然只是排除在外,但无法拒绝测试永远不能证明它是IID。
需要根据是否收集数据,数据如何与其他信息相关以及如何使用这些数据的科学来做出有关是否愿意假设IID条件成立的决定。
编辑:
这是另一套不同的示例。
场景5:数据是存在异方差(方差不相等)的回归残差。
场景6:数据来自均值0但方差不同的法线的混合。
在方案5中,我们可以清楚地看到,如果将残差与拟合值或其他变量(预测变量或潜在预测变量)作图,则残差分布不均,但是残差本身(没有外部信息)与方案6难以区分。
如果数据具有索引顺序,则可以对时间序列使用白噪声测试。从本质上讲,这意味着测试所有非零滞后的自相关均为0。这将处理独立性部分。我认为您的方法正在尝试主要解决假设中相同分布的部分。我认为您的方法存在一些问题。我认为您需要大量拆分才能获得足够的p值以测试均匀性。然后,每个KS测试都会掉电。如果您使用的是在部分数据集上重叠的拆分,则测试将被关联。进行少量拆分后,均匀性测试将无法进行。但是,对于许多拆分,均匀性测试可能很强大,但KS测试却没有。同样,这种方法似乎也无助于检测变量之间的依赖性。
@ gu11aume我不确定通过非时间序列的一般测试要求什么。空间数据提供了一种非时间序列数据形式。在那里可以查看称为变异函数的函数。对于一维序列,按时间排序的序列与任何其他排序数据的方式之间没有太大的区别。自相关函数仍可以定义和测试。当您说要测试抽样的独立性时,我认为您有一个收集样本的顺序。因此,我认为所有一维案例的工作方式都相同。