测试IID采样


16

您将如何测试或检查采样是否为IID(独立且完全相同)?请注意,我不是指高斯和完全分布式,而只是IID。

我想到的想法是,将样本重复分成相等大小的两个子样本,执行Kolmogorov-Smirnov检验,并检查p值的分布是否均匀。

欢迎对该方法发表任何评论,并提出任何建议。

开始赏金后的澄清: 我正在寻找可用于非时间序列数据的常规测试。


是时间序列数据吗?
danas.zuokas,2012年

@ gui11aume您是否尝试过“眼球”测试?也就是说,绘制数据并查看它是否看起来像IID。
2012年

我没有 我不确定您的意思:按值的顺序绘制这些值(可能是随机的)吗?然后检查是否没有醒目的图案?
gui11aume12年


1
抱歉。我心目中具有以下运行测试:apprendre-en-ligne.net/random/run.html(不过这是写在法国)
斯特凡纳·洛朗

Answers:


14

关于数据是否为IID的结论来自外部信息,而不是数据本身。您作为科学家需要根据数据的收集方式和其他外部信息来确定采用数据IID是否合理。

考虑一些例子。

方案1:我们从恰好是2个法线混合而成的单个分布中独立生成一组数据。

场景2:我们首先根据二项分布生成性别变量,然后在男性和女性中独立地从正态分布生成数据(但男性和女性的正态不同),然后删除或丢失性别信息。

在方案1中,数据是IID,在方案2中,数据显然不是完全相同的分布(男性和女性的分布不同),但是2个方案的2个分布与数据是无法区分的,您必须了解有关数据的方式生成以确定差异。

方案3:我对居住在城市中的人们进行了简单的随机抽样,并进行了一项调查并分析了结果,以推断出城市中的所有人。

方案4:我对居住在城市中的人们进行了简单的随机抽样,并进行了一项调查并分析了结果,以推断出该国所有人的情况。

在方案3中,对象被认为是独立的(感兴趣的人群的简单随机样本),但是在方案4中,由于他们是从感兴趣的人群的一小部分中选择的,因此他们不会被认为是独立的。依赖。但是这两个数据集是相同的,在这种情况下,我们打算使用数据的方式来确定它们是独立的还是依赖的。

因此,没有办法仅使用数据来证明数据是IID,图和其他诊断程序可以显示某些类型的非IID,但是缺少这些信息并不能保证数据是IID。您还可以与特定的假设进行比较(IID normal比仅IID更容易被反对)。任何测试仍然只是排除在外,但无法拒绝测试永远不能证明它是IID。

需要根据是否收集数据,数据如何与其他信息相关以及如何使用这些数据的科学来做出有关是否愿意假设IID条件成立的决定。

编辑:

这是另一套不同的示例。

场景5:数据是存在异方差(方差不相等)的回归残差。

场景6:数据来自均值0但方差不同的法线的混合。

在方案5中,我们可以清楚地看到,如果将残差与拟合值或其他变量(预测变量或潜在预测变量)作图,则残差分布不均,但是残差本身(没有外部信息)与方案6难以区分。


尤其是这个答案的第一部分对我来说似乎有些困惑(或困惑)。作为IID是一个定义良好的数学性质有限的随机变量集合。您的方案1和2 相同如果第二种情况下的随机变量是在“丢失性别信息之后”获得的,则。他们在两种情况下都是愚蠢的!
主教

GregSnow我并不完全同意您的主张。您可能知道数据来自一系列相同分布的随机变量。您不知道是什么模型生成的。它们可能是独立生成的,也可能是来自固定时间序列的。要确定哪种情况,假设您知道相同的分布是正态的。然后,这两种可能性都属于固定序列的类别,如果且仅当所有非零滞后自相关均为0时,它才是iid。测试是否存在correla
Michael R. Chernick),2012年

2
@cardinal,那么您是否同意场景2中的数据在丢失性别信息之前分布不相同?因此,我们会遇到一个情况,即它们并不完全相同,但是,区别的唯一方法是使用所查看变量之外的信息(在这种情况下为性别)。是的,IID是一个定义明确的数学属性,但整数也是如此,您是否可以测试数据点3.是存储为浮点数的整数还是连续的值,并且在没有外部信息的情况下四舍五入从。
格雷格·斯诺

2
所以你说的是,有可能存在包含在变量的一些附加信息使轻微X X ĴĴ,但X | Z可能不再独立于X j | ž。在第一种情况下,Z是性别标签的向量;在第二种情况下,Z是设计信息。我认为这是一个很好的观察。ZXiXj,ijXi|ZXj|ZZZ
StasK 2012年

但是,您上面所说的所有内容均使用有关如何收集/生成数据的信息,而不仅仅是数据本身。即使我们有支持的数据,也没有时间序列自相关不会告诉我们有关空间相关性或其他类型的非独立性的任何信息。我们真的可以测试每种可能的依赖关系并获得有意义的结果吗?还是我们应该使用有关如何收集数据的信息来指导哪些测试最有可能有意义?
格雷格·斯诺

5

如果数据具有索引顺序,则可以对时间序列使用白噪声测试。从本质上讲,这意味着测试所有非零滞后的自相关均为0。这将处理独立性部分。我认为您的方法正在尝试主要解决假设中相同分布的部分。我认为您的方法存在一些问题。我认为您需要大量拆分才能获得足够的p值以测试均匀性。然后,每个KS测试都会掉电。如果您使用的是在部分数据集上重叠的拆分,则测试将被关联。进行少量拆分后,均匀性测试将无法进行。但是,对于许多拆分,均匀性测试可能很强大,但KS测试却没有。同样,这种方法似乎也无助于检测变量之间的依赖性。

@ gu11aume我不确定通过非时间序列的一般测试要求什么。空间数据提供了一种非时间序列数据形式。在那里可以查看称为变异函数的函数。对于一维序列,按时间排序的序列与任何其他排序数据的方式之间没有太大的区别。自相关函数仍可以定义和测试。当您说要测试抽样的独立性时,我认为您有一个收集样本的顺序。因此,我认为所有一维案例的工作方式都相同。


2
(+1),因为这是我的想法,但Re:“如果数据按索引排序,则可以对时间序列使用白噪声测试。从本质上讲,这意味着测试所有非零滞后的自相关均为0。” -此逻辑仅在处理固定时间序列时适用,对吗?否则,您可能会得到有关滞后相关性的误导性结果。例如,如果只有时间序列的“后”部分是自相关的,那该怎么办?
2012年

1
@Macro我认为这是基于您对OP提出的问题而想到的。但是我认为没有必要等待他的回应来指出这一点。它在您寻求独立性时适用。但我理解你的意思。实际上,您仅检查前k个滞后。如果该序列是平稳的,则相关性将随k下降,但对于非平稳序列则不会下降。因此,至少在理论上,对于一个非平稳序列,您会错过较大滞后的相关性。
Michael R. Chernick

2
很好,对于一个非平稳的时间序列,将自相关作为滞后的函数看甚至是没有意义的。如果CØ[RÿŤÿs=FsŤFsŤ 不只是一个函数 |s-Ť|假装是会发生各种奇怪的事情的。我真的只是问您是否对时间序列不稳定的情况有任何想法
Macro 2012年

谢谢迈克尔的回答!您是对的:如果数据是时间序列,则检查自相关是最好的方法。至于您对分离式KS方法的批评,您也有一点。因此,在一般情况下(非时间序列),我们仍然没有任何测试。
gui11aume12年

2
第一个非零自相关是在滞后60处,并且仅在60的其他倍数处。如果时间序列的长度为55,我们甚至无法观察到两个点60滞后。因此,我们无法检查滞后60的相关性是否为0。如果序列的长度是65,我们可以估计滞后60的相关性,但仅基于5个滞后60对。因此,估算值的方差很大,我们将无权检测这种非零相关性。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.