为什么零相关并不一定意味着独立

41

如果两个变量的相关性为0，为什么它们不一定是独立的？在特殊情况下零相关变量是否独立？如果可能的话，我正在寻找一种直观的解释，而不是高度技术性的解释。

correlation independence

— 胜利者
source

10

相关性是线性相关性（关联性）的量度。两个随机变量可能不相关但非线性相关。

— 马克·L·斯通

直观的解释- > math.stackexchange.com/questions/444408/...

— Siddhesh

6

如果变量是多元正态变量，则零相关意味着独立性。这与每个正常变量都不相同- 有关零相关但相关的正常变量的散点图，请参见此处（每个变量都是正常变量）

— Glen_b 2015年

1

相关性（不合格）可能包括等级相关性等，单调相关性是问题所在，依此类推。

— 尼克·考克斯

1

对于前景，我建议您将Wikipedia的“距离相关性”视为独立性的度量。

— ttnphns

41

相关度量了两个给定变量之间的线性关联，没有义务检测其他任何形式的关联。

因此，这两个变量可能以其他几种非线性方式关联，并且关联无法与独立情况区分开。

作为一个非常说教，人工和非现实的例子，可以考虑，使得为和。请注意，它们不仅是关联的，而且一个是另一个的功能。但是，它们的相关性为0，因为它们的关联与相关性可以检测到的关联正交。 $X$ $P(X=x)=1/3$ $x=-1, 0, 1$ $Y=X^2$

— 马塞洛·文图拉
source

1

我一直在寻找随机方差不相关但相关的证据，但是对我的问题的直接回答都没有揭示直觉的事实。另一方面，您的回答给了我一个很好的思考角度，非常感谢！

— stucash

1

@stucash我的荣幸！这是我学到老的反例

— 马塞洛文

23

由于使用“相关性”一词可能具有多种不同的假设和含义，因此普遍缺乏严格性。最简单，最松散和最常见的用法是，在静态随机变量对之间存在一些模糊的关联，关系或缺乏独立性。

这里，默认的度量通常是皮尔森相关性，这是两个连续分布的变量之间成对线性关联的标准化度量。其中的皮尔森常见的滥用是其报告为百分比。绝对不是百分比。的皮尔逊相关性，- [R ，范围，其中0表示无-1.0和1.0之间的线性关联。使用Pearson相关作为默认值的其他尚未得到广泛认可的问题是，它实际上是一种严格的，非稳健的线性度量，需要区间比例变量作为输入（请参阅Paul Embrechts的出色论文风险管理中的相关性和依赖性：此处的属性和陷阱：https：//people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf）。

Embrechts指出，关于依赖关系存在许多谬论，这些假设始于对这些关系的基础结构和几何形状的假设：

这些谬误源于一个天真的假设，即椭圆世界的依赖属性在非椭圆世界中也成立

Embrechts点连接函数为更广泛的类金融和风险管理，其中使用依赖度量的皮尔逊相关性仅仅是一种类型。

哥伦比亚大学统计部门在2013-2014学年期间专注于发展对依存结构的更深入理解：例如，线性，非线性，单调，秩，参数，非参数，潜在高度复杂且在缩放方面存在很大差异。一年结束了为期3天的研讨会和会议，该领域的大多数杰出贡献者聚集在一起（http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2）。

这些贡献者包括雷舍夫兄弟（Reshef Brothers），该兄弟现在因2011年发表的《在大型数据集中检测小说关联》科学论文而闻名，网址为http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf，受到了广泛的批评（请参阅AndrewGelman.com以获得很好的概述，该概述与Columbia事件同时发布：http ://andrewgelman.com/2014/03/14/maximal-information-coefficient ）。Reshef夫妇在其演讲（可在Columbia会议网站上找到）中解决了所有这些批评，并提供了效率更高的MIC算法。

许多其他领先的统计学家参加了此次活动，包括Gabor Szekely，他现在在DC的NSF参加。Szekely发展了他的距离和部分距离的相关性。Temple U的Deep Mukhopadhay，在Eugene Franzen（http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/）的工作基础上，展示了他的统一统计算法 -数据科学统一算法的框架。还有许多其他。对我来说，更有趣的主题之一是广泛利用和使用“复制内核希尔伯特空间”（RKHS）和卡方。如果在这次会议上有一种依赖结构的模态方法，那就是RKHS。

典型的介绍性统计教科书在处理依赖时过分敷衍，通常依赖于圆形或抛物线关系的同一组可视化表示。更复杂的文本将深入研究Anscombe的四重奏，该可视化是四个具有相似，简单的统计属性但关系却截然不同的四个不同数据集的可视化：https : //en.wikipedia.org/wiki/Anscombe%27s_quartet

该研讨会的一大优点是可视化和呈现的众多依赖关系结构和关系，远远超出了标准的敷衍对待。例如，Reshef家族有数十个缩略图，它们仅代表可能的非线性样本。穆克帕德海（Mukhopadhay）拥有极为复杂的人际关系的惊人视觉效果，看起来更像喜马拉雅山的卫星视图。统计和数据科学教科书作者需要注意。

在哥伦比亚会议上，随着这些高度复杂的，成对依赖性结构的开发和可视化而来，我被质疑多元统计模型捕获这些非线性和复杂性的能力。

— 迈克·亨特
source

2

我刚刚在Quora上遇到

— Mike Hunter，

6

这取决于您对“相关性”的确切定义，但是构造退化案例并不难。“独立”可能意味着“根本没有预测能力”和“线性相关”一样。

$y= \sin(2000x)$ $x$ $[0,1)$

— 安德鲁·查内斯基
source

3

基本上，Y对X的依赖性意味着Y值的分布取决于X值的某种方式。这种依赖性可以取决于Y的平均值（大多数答案中都存在这种情况）或Y的任何其他特征。是的

例如，令X为0或1。如果X = 0，则令Y为0，如果X = 1，则Y为-1、0或1（相同的概率）。X和Y不相关。平均而言，Y并不依赖于X，因为无论X的值为多少，Y的均值为0。但是显然Y的值的分布取决于X的值。在这种情况下，例如，当X ＝ 0时Y的方差为0，而当X ＝ 1时Y的方差＞ 0，因此至少存在对方差的依赖性，即存在依赖性。

因此，线性相关仅显示对均值的一种依赖关系（线性依赖），而这又仅仅是依赖的一种特殊情况。

— 卡帕布兰卡
source