如果两个变量的相关性为0,为什么它们不一定是独立的?在特殊情况下零相关变量是否独立?如果可能的话,我正在寻找一种直观的解释,而不是高度技术性的解释。
如果两个变量的相关性为0,为什么它们不一定是独立的?在特殊情况下零相关变量是否独立?如果可能的话,我正在寻找一种直观的解释,而不是高度技术性的解释。
Answers:
相关度量了两个给定变量之间的线性关联,没有义务检测其他任何形式的关联。
因此,这两个变量可能以其他几种非线性方式关联,并且关联无法与独立情况区分开。
作为一个非常说教,人工和非现实的例子,可以考虑 ,使得P (X = X )= 1 / 3为X = - 1 ,0 ,1和ÿ = X 2。请注意,它们不仅是关联的,而且一个是另一个的功能。但是,它们的相关性为0,因为它们的关联与相关性可以检测到的关联正交。
由于使用“相关性”一词可能具有多种不同的假设和含义,因此普遍缺乏严格性。最简单,最松散和最常见的用法是,在静态随机变量对之间存在一些模糊的关联,关系或缺乏独立性。
这里,默认的度量通常是皮尔森相关性,这是两个连续分布的变量之间成对线性关联的标准化度量。其中的皮尔森常见的滥用是其报告为百分比。绝对不是百分比。的皮尔逊相关性,- [R ,范围,其中0表示无-1.0和1.0之间的线性关联。使用Pearson相关作为默认值的其他尚未得到广泛认可的问题是,它实际上是一种严格的,非稳健的线性度量,需要区间比例变量作为输入(请参阅Paul Embrechts的出色论文风险管理中的相关性和依赖性:此处的属性和陷阱:https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf)。
Embrechts指出,关于依赖关系存在许多谬论,这些假设始于对这些关系的基础结构和几何形状的假设:
这些谬误源于一个天真的假设,即椭圆世界的依赖属性在非椭圆世界中也成立
Embrechts点连接函数为更广泛的类金融和风险管理,其中使用依赖度量的皮尔逊相关性仅仅是一种类型。
哥伦比亚大学统计部门在2013-2014学年期间专注于发展对依存结构的更深入理解:例如,线性,非线性,单调,秩,参数,非参数,潜在高度复杂且在缩放方面存在很大差异。一年结束了为期3天的研讨会和会议,该领域的大多数杰出贡献者聚集在一起(http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2)。
这些贡献者包括雷舍夫兄弟(Reshef Brothers),该兄弟现在因2011年发表的《在大型数据集中检测小说关联》科学论文而闻名,网址为http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf,受到了广泛的批评(请参阅AndrewGelman.com以获得很好的概述,该概述与Columbia事件同时发布:http ://andrewgelman.com/2014/03/14/maximal-information-coefficient )。Reshef夫妇在其演讲(可在Columbia会议网站上找到)中解决了所有这些批评,并提供了效率更高的MIC算法。
许多其他领先的统计学家参加了此次活动,包括Gabor Szekely,他现在在DC的NSF参加。Szekely发展了他的距离和部分距离的相关性。Temple U的Deep Mukhopadhay,在Eugene Franzen(http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/)的工作基础上,展示了他的统一统计算法 -数据科学统一算法的框架。还有许多其他。对我来说,更有趣的主题之一是广泛利用和使用“复制内核希尔伯特空间”(RKHS)和卡方。如果在这次会议上有一种依赖结构的模态方法,那就是RKHS。
典型的介绍性统计教科书在处理依赖时过分敷衍,通常依赖于圆形或抛物线关系的同一组可视化表示。更复杂的文本将深入研究Anscombe的四重奏,该可视化是四个具有相似,简单的统计属性但关系却截然不同的四个不同数据集的可视化:https : //en.wikipedia.org/wiki/Anscombe%27s_quartet
该研讨会的一大优点是可视化和呈现的众多依赖关系结构和关系,远远超出了标准的敷衍对待。例如,Reshef家族有数十个缩略图,它们仅代表可能的非线性样本。穆克帕德海(Mukhopadhay)拥有极为复杂的人际关系的惊人视觉效果,看起来更像喜马拉雅山的卫星视图。统计和数据科学教科书作者需要注意。
在哥伦比亚会议上,随着这些高度复杂的,成对依赖性结构的开发和可视化而来,我被质疑多元统计模型捕获这些非线性和复杂性的能力。