为什么零相关并不一定意味着独立


41

如果两个变量的相关性为0,为什么它们不一定是独立的?在特殊情况下零相关变量是否独立?如果可能的话,我正在寻找一种直观的解释,而不是高度技术性的解释。


10
相关性是线性相关性(关联性)的量度。两个随机变量可能不相关但非线性相关。
马克·L·斯通


6
如果变量是多元正态变量,则零相关意味着独立性。这与每个正常变量都不相同- 有关零相关但相关的正常变量的散点图,请参见此处(每个变量都是正常变量)
Glen_b 2015年

1
相关性(不合格)可能包括等级相关性等,单调相关性是问题所在,依此类推。
尼克·考克斯

1
对于前景,我建议您将Wikipedia的“距离相关性”视为独立性的度量。
ttnphns

Answers:


41

相关度量了两个给定变量之间的线性关联,没有义务检测其他任何形式的关联。

因此,这两个变量可能以其他几种非线性方式关联,并且关联无法与独立情况区分开。

作为一个非常说教,人工和非现实的例子,可以考虑 ,使得P X = X = 1 / 3X = - 1 0 1ÿ = X 2。请注意,它们不仅是关联的,而且一个是另一个的功能。但是,它们的相关性为0,因为它们的关联与相关性可以检测到的关联正交。XP(X=x)=1/3x=1,0,1Y=X2


1
我一直在寻找随机方差不相关但相关的证据,但是对我的问题的直接回答都没有揭示直觉的事实。另一方面,您的回答给了我一个很好的思考角度,非常感谢!
stucash

1
@stucash我的荣幸!这是我学到老的反例
马塞洛文

23

由于使用“相关性”一词可能具有多种不同的假设和含义,因此普遍缺乏严格性。最简单,最松散和最常见的用法是,在静态随机变量对之间存在一些模糊的关联,关系或缺乏独立性。

这里,默认的度量通常是皮尔森相关性,这是两个连续分布的变量之间成对线性关联的标准化度量。其中的皮尔森常见的滥用是其报告为百分比。绝对不是百分比。的皮尔逊相关性,- [R ,范围,其中0表示无-1.0和1.0之间的线性关联。使用Pearson相关作为默认值的其他尚未得到广泛认可的问题是,它实际上是一种严格的,非稳健的线性度量,需要区间比例变量作为输入(请参阅Paul Embrechts的出色论文风险管理中的相关性和依赖性:此处的属性和陷阱https//people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf)。

Embrechts指出,关于依赖关系存在许多谬论,这些假设始于对这些关系的基础结构和几何形状的假设:

这些谬误源于一个天真的假设,即椭圆世界的依赖属性在非椭圆世界中也成立

Embrechts点连接函数为更广泛的类金融和风险管理,其中使用依赖度量的皮尔逊相关性仅仅是一种类型。

哥伦比亚大学统计部门在2013-2014学年期间专注于发展对依存结构的更深入理解:例如,线性,非线性,单调,秩,参数,非参数,潜在高度复杂且在缩放方面存在很大差异。一年结束了为期3天的研讨会和会议,该领域的大多数杰出贡献者聚集在一起(http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2)。

这些贡献者包括雷舍夫兄弟(Reshef Brothers),该兄弟现在因2011年发表的《在大型数据集中检测小说关联》科学论文而闻名,网址为http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf,受到了广泛的批评(请参阅AndrewGelman.com以获得很好的概述,该概述与Columbia事件同时发布:http ://andrewgelman.com/2014/03/14/maximal-information-coefficient )。Reshef夫妇在其演讲(可在Columbia会议网站上找到)中解决了所有这些批评,并提供了效率更高的MIC算法。

许多其他领先的统计学家参加了此次活动,包括Gabor Szekely,他现在在DC的NSF参加。Szekely发展了他的距离部分距离的相关性。Temple U的Deep Mukhopadhay,在Eugene Franzen(http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/)的工作基础上,展示了他的统一统计算法 -数据科学统一算法的框架。还有许多其他。对我来说,更有趣的主题之一是广泛利用和使用“复制内核希尔伯特空间”(RKHS)和卡方。如果在这次会议上有一种依赖结构的模态方法,那就是RKHS。

典型的介绍性统计教科书在处理依赖时过分敷衍,通常依赖于圆形或抛物线关系的同一组可视化表示。更复杂的文本将深入研究Anscombe的四重奏,该可视化是四个具有相似,简单的统计属性但关系却截然不同的四个不同数据集的可视化:https : //en.wikipedia.org/wiki/Anscombe%27s_quartet

该研讨会的一大优点是可视化和呈现的众多依赖关系结构和关系,远远超出了标准的敷衍对待。例如,Reshef家族有数十个缩略图,它们仅代表可能的非线性样本。穆克帕德海(Mukhopadhay)拥有极为复杂的人际关系的惊人视觉效果,看起来更像喜马拉雅山的卫星视图。统计和数据科学教科书作者需要注意。

在哥伦比亚会议上,随着这些高度复杂的,成对依赖性结构的开发和可视化而来,我被质疑多元统计模型捕获这些非线性和复杂性的能力。


2
我刚刚在Quora上遇到
Mike Hunter,

6

这取决于您对“相关性”的确切定义,但是构造退化案例并不难。“独立”可能意味着“根本没有预测能力”和“线性相关”一样。

y=sin(2000x)x[0,1)


3

基本上,Y对X的依赖性意味着Y值的分布取决于X值的某种方式。这种依赖性可以取决于Y的平均值(大多数答案中都存在这种情况)或Y的任何其他特征。是的

例如,令X为0或1。如果X = 0,则令Y为0,如果X = 1,则Y为-1、0或1(相同的概率)。X和Y不相关。平均而言,Y并不依赖于X,因为无论X的值为多少,Y的均值为0。但是显然Y的值的分布取决于X的值。在这种情况下,例如,当X = 0时Y的方差为0,而当X = 1时Y的方差> 0,因此至少存在对方差的依赖性,即存在依赖性。

因此,线性相关仅显示对均值的一种依赖关系(线性依赖),而这又仅仅是依赖的一种特殊情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.