如何测试两个连续变量是独立的?


48

假设我有一个样本根据和的联合分布。我如何检验和是独立的假设?X ÿ X ÿ(Xn,Yn),n=1..NXYXY

不对和的联合或边际分布定律(所有联合正态性中的最小者,因为在这种情况下,独立性等于)是相同的。ÿXY0

没有对和之间可能关系的性质作任何假设; 它可能是非线性的,因此变量是不相关的()但高度相关()。Y r = 0 I = HXYr=0I=H

我可以看到两种方法:

  1. 对两个变量进行bin,并使用Fisher精确检验G-test

    • 优点:使用完善的统计测试
    • 缺点:取决于分档
  2. 估计依赖的和:(这是独立和和当它们完全确定对方)。Y I X ; Y XYI(X;Y)H(X,Y)XY10XY1

    • 优点:产生具有明确理论意义的数字
    • 缺点:取决于近似熵的计算(即再次进行分箱)

这些方法有意义吗?

人们还使用其他哪些方法?



@RayKoopman:谢谢,我现在正在阅读通过距离相关性来测量和测试依赖性
sds

1
在讨论连续变量时,依存关系没有任何意义。连续变量具有无限的熵。在这里,您不能用代替微分熵,因为微分熵无法与互信息媲美。虽然互信息具有“绝对”的含义,但微分熵可能是正值,零值甚至是负值,具体取决于您用来测量变量和。 H X YI(X;Y)/H(X;Y)HXY
fonini

@fonini:当然,我在说装箱变量。谢谢您的评论。
sds

Answers:


27

通常,这是一个非常棘手的问题,尽管您的变量显然只有1d,这很有帮助。当然,第一步(如果可能的话)应该是绘制数据并查看是否有任何东西冒出来。您处于二维状态,因此这应该很容易。

以下是一些可在或更常规设置中使用的方法:Rn

  • 正如您提到的,通过熵估计互信息。这可能是您最好的选择;最近的基于邻居的估计量在低维范围内还可以,甚至直方图在2d中也不可怕。如果您担心估算误差,此估算器很简单,可以为您提供有限的样本边界(大多数其他样本仅证明渐近性质):

    Sricharan,Raich和Hero。信心函数的经验估计。arXiv:1012.4188 [math.ST]

    另外,对于互信息,也有类似的直接估算器,例如

    Pál,Póczos和Svepesári。基于广义最近邻图的Rényi熵和互信息估计,NIPS 2010。

  • Hilbert-Schmidt独立性标准:基于内核(从RKHS而非KDE的角度)的方法。

    Gretton,Bousqet,Smola和Schölkopf,使用Hilbert-Schmidt准则测量统计独立性,算法学习理论,2005年。

  • Schweizer-Wolff方法:基于copula变换,因此对于单调递增变换也不变。我对此并不十分熟悉,但是我认为它在计算上更简单,但功能可能也不那么强大。

    Schweizer和Wolff,关于随机变量的非参数相关性度量,《统计年刊》,1981年。


您能否简要提及一下这些方法与“ 距离相关”的比较?我正在使用DC筛选大型数据集(嗯,对我来说很大),所以我对您可能有的任何评论都感兴趣。谢谢!
pteetor

1
@pteetor有趣的是,我之前没有遇到过距离相关性。在计算上,对于大样本量,这似乎比熵估计方法昂贵,因为您需要完整的距离矩阵(对于熵估计器,可以使用索引仅获取第一个k邻居)。不知道如何比较统计
功效

4
对于以后的读者:Sejdinovic等人 2013 年的假设检验中基于距离和基于RKHS的统计量相等。显示了距离相关性和其他能量距离是MMD的特定实例,它是HSIC背后的基础度量,并讨论了测试功率等方面的关系。
Dougal

18

Hoeffding使用联合秩检验针对两个连续变量的独立性开发了一种通用的非参数检验。1948年的测试是在R 包的功能中实现的。H0:H(x,y)=F(x)G(y)Hmischoeffd


6

这篇论文怎么样:

http://arxiv.org/pdf/0803.4101.pdf

“通过距离的相关性来测量和测试依赖性”。Székely和Bakirov总是有有趣的东西。

有实现的matlab代码:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

如果您发现任何其他(易于实现的)独立性测试,请告知我们。


2
欢迎使用该站点@JLp。我们希望以问题和答案的形式建立永久的高质量统计信息存储库。因此,我们担心的一件事是linkrot。考虑到这一点,您可以总结一下该论文的内容/它如何回答问题,以防链接失效。它还将帮助该主题的未来读者决定是否要花费时间阅读本文。
gung-恢复莫妮卡

@gung:这与能量
sds

5

本文给出了距离协方差与核检验(基于Hilbert-Schmidt独立性准则)之间的联系:

Sejdinovic,D.,Sriperumbudur,B.,Gretton,A.和Fukumizu,K.,假设检验中基于距离和基于RKHS的统计的等效性,《统计年鉴》,41(5),第2263-2702页, 2013年

结果表明,距离协方差是内核统计量的特例,对于特定的内核族而言。

如果您打算使用互信息,则基于MI的合并估计的测试是:

Gretton,A.和Gyorfi,L.,一致的独立非参数检验,《机器学习研究杂志》,第11卷,第1391--1423页,2010年。

如果您对获得最佳测试能力感兴趣,那么最好使用内核测试,而不是合并和相互信息。

就是说,鉴于您的变量是单变量,像Hoeffding的经典非参数独立性测试可能很好。


4

很少(从来没有?)在统计中可以证明样本统计=点值。您可以针对点值进行测试,并排除或不排除它们。但是统计数据的本质在于它与检查可变数据有关。因为总是存在方差,所以将不一定有办法知道某事物完全不相关,正常,高斯等。您只能知道它的一系列值。您可能知道某个值是否被排除在合理值范围之外。例如,不排除任何关系并给出关系的大小范围很容易。

因此,试图证明没有关系,从本质上讲,点的价值relationship = 0是不会成功的。如果您可以接受的关系度量范围约为0。那么可以设计一个测试。

假设您可以接受该限制,这将有助于尝试帮助您提供具有最低曲线的散点图的人们。由于您正在寻找R解决方案,请尝试:

scatter.smooth(x, y)

基于到目前为止您提供的有限信息,我认为广义加性模型可能是测试非独立性的最佳方法。如果用CI围绕预测值进行绘制,则可能可以发表有关独立性的声明。gam在mgcv软件包中签出。帮助是相当不错的,在此处可以找到关于CI的帮助


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.