如果A和B与C相关,为什么A和B不一定相关?


62

我凭经验知道情况就是如此。我刚刚开发了遇到这个难题的模型。我也怀疑这不一定是是/否答案。我的意思是,如果A和B都与C相关,那么这可能对A和B之间的相关性有一定的暗示。但是,这种暗示可能很弱。这可能只是一个指示方向,仅此而已。

这就是我的意思。假设A和B与C的相关性均为0.5。鉴于此,A和B之间的相关性很可能为1.0。我认为也可能是0.5甚至更低。但是,我认为这不太可能是负面的。你同意吗?

另外,如果您正在考虑使用标准的皮尔逊相关系数或斯皮尔曼(秩)相关系数,是否有暗示?我最近的经验观察与Spearman相关系数有关。


38
一个例子是采取,,和。我们可以将和视为独立的,但和都与相关(肯定是Pearson)。A=XB=YC=X+YXYABC

1
谢谢,这实际上是一个很好的评论。简短,但它抓住了其原因的本质。
Sympa 2010年

Answers:


53

因为相关性是多元分布的数学属性,所以无论这些分布的统计起源如何,都可以通过计算纯粹地获得一些见识。

对于Pearson相关性,请考虑多元正态变量 ,,。这些方法很有用,因为任何非负定矩阵实际上都是某些多正态分布的协方差矩阵,从而解决了存在性问题。如果我们坚持对角线为矩阵,协方差矩阵的非对角线条目将是它们的相关性。将和的相关性写为,将和的相关性写为,以及和的相关性写为ý ž 1 X ý ρ ý ž τ X ž σXYZ1XYρYZτXZσ,我们计算得出

  • 1+2ρστ(ρ2+σ2+τ2)0(因为这是相关矩阵的行列式,不能为负)。

  • 当这意味着。换句话说,当和都很大时,和必须具有非零相关性。ρ 2 + τ 21 ρ τ X žσ=0ρ2+τ21ρτXZ

  • 如果,则任何非负值(当然在和之间)都是可能的。σ 0 1ρ2=τ2=1/2σ01

  • 当,负值是允许的。例如,当,可以介于和之间。σ ρ = τ = 1 / 2 σ - 1 / 2 1ρ2+τ2<1σρ=τ=1/2σ1/21

这些考虑意味着对互相关的确存在一些约束。约束条件(仅取决于相关矩阵的非负定性,而不取决于变量的实际分布)可以根据关于单变量分布的假设来加强。例如,很容易看到(并证明)当和的分布不在同一位置范围族中时,它们的相关性大小必须严格小于。(证明:的相关性表示和与之线性相关)Y 1 ± 1 X YXY1±1XY

至于Spearman秩相关性去,考虑三个三变量观察,和的。他们互相等级相关的,,和。因此,即使和的秩相关的符号也可以与和以及和的相关符号相反。2 3 1 3 2 3 X ÿ Ž 1 / 2 1 / 2 - 1 / 2 ý ž X ÿ X ž(1,1,2)(2,3,1)(3,2,3)(X,Y,Z)1/21/21/2YZXYXZ


ub,什么是“多态变量”?
Sympa 2010年


像往常一样,最彻底的解释是应有的“最佳答案”复选标记。
Sympa 2010年

@Gaetan Lion你很好。我很喜欢阅读这个问题的所有答案(并把它们全部标记出来)。
ub

88

我现在正在进行年度钓鱼之旅。我每天钓鱼的时间与我钓到的鱼的数量之间存在相关性。我使用的诱饵的大小与钓到的鱼的数量之间也存在相关性。诱饵的大小与一天中的时间之间没有关联。


罗勒,我喜欢它!+1为简单的英语说明。
Sympa 2010年

最好。回答。在stats.stackexchange上。曾经
克里斯·比利

1
这描述了相关性较低的情况,但是没有说明相关性较高的情况。如果与一天中的时间有80%的相关性,并且与诱饵的大小有80%的相关性,那么我可以保证您白天使用的诱饵更大!
user35581 2015年

2
@ user35581不,您不能-您遗漏了全部内容。每小时他可以用小诱饵钓鱼一次,而用大诱饵钓鱼一次。他仍然可以在一天中的某些时段捕获更多的鱼(相关性为80%),并且在诱饵更大的情况下捕获更多的鱼(相关性为80%),并且他使用的诱饵大小与一天中的时间之间的相关性为0。如果他在一天的非高峰时间更频繁地使用较大的诱饵以弥补一天中的糟糕时间,甚至可能是负相关。因此,您实际上对一天中的时间与诱饵大小之间的相关性一无所知。
rysqui'1

2
@rysqui抱歉,我的评论用词不好,但我要提出的重点是:当特征与目标之间的相关性很高时,则还必须将您的特征相关联。因此,如果您在一天中的时间和捕捞量之间具有完美的关联,并且在诱饵的大小和捕捞量之间具有完美的关联,那么您还必须在诱饵的大小与一天中的时间之间具有完美的关联,因此,最终声明“您白天使用更大的诱饵”。请记住,这是一个极端的情况!
user35581'1

20

相关是两个向量之间的角度的余弦值。在描述的情况下,(A,B,C)是三倍的观测值,进行了n次,每个观测值都是实数。A和B之间的相关性是在n维欧式空间中测得的和之间的角度的余弦值。所以,我们的情况减少了3个考虑载体,和的N维空间。我们有3对向量,因此有3个角度。如果两个角度较小(高相关),则第三个角度也较小。但是说“相关”并没有多大限制:这意味着角度在0到VA=AE(A)VB=BE(B)VAVBVCπ/2。通常,这完全不限制第三角度。把它的另一种方式,开始与任何角度小于之间和 (除-1的任何相关性)。让平分之间的角度和。然后C将与A和B相关联。πVAVBVCVAVB


就多维矢量之间的角度而言,+ 1相关性对我而言很直观。
Petrus Theron

2
为将来的读者参考,我在以下线程中对此几何答案(带图片!)进行了扩展:talkstats.com/showthread.php/…–
Jake Westfall

18

作为胡布尔答案的附加内容:给出的公式

1+2ρστ(ρ2+σ2+τ2)0

可以转化为以下不等式(Olkin,1981):

στ(1σ2)(1τ2)ρστ+(1σ2)(1τ2)

图形表示为上限和下限看起来像:ρ

在此处输入图片说明


奥尔金(I.)(1981)。乘积矩相关矩阵的范围限制。心理疗法,46,469-472。doi:10.1007 / BF02293804


谁能告诉我这些示例中是否有些是具有特定边际分布的多元分布,从而限制了组件之间可能的相关性范围?这意味着相关性不能在-1到1的范围内变化。我记得Frechet是至少一个在1950年代发展了这一点的人。今天,当我搜索文献时,我认为它们现在被称为Frechet copulas。
Michael Chernick'1

14

我认为最好问一下“为什么它们应该相互关联?” 或者,也许“为什么要有任何特定的相关性?”

以下R代码显示x1和x2都与Y相关但彼此具有0相关的情况

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

通过将.3减少到.1或其他任何值,可以增强与Y的相关性


不幸的是,我不是R用户。因此,以上代码对我的意义比对您的意义小。
Sympa 2010年

2
@Gaetan Lion:在此代码中,和是独立的根法线,并且加上标准差为0.3的正态噪声项。显然,与独立的和正相关。x 2 y = 3 x 1 + 2 x 2 y x 1 x 2x1x2y=3x1+2x2yx1x2
shabbychef 2010年

14

我将把统计证明留给那些比我更适合的人……但是直觉上说事件A产生了一个过程X,该事件X有助于事件C的产生。然后,A与C相关联(通过X)。另一方面,B生成Y,Y的形状也为C。因此,A与C相关,B与C相关,但A和B不相关。


1
@尼斯。我认为您的意思是在最后一句的最后一部分中“ A和B不相关”。
suncoolsu 2010年

是的,Nico进行了suncoolsu校正……这是一个很好的解释。您正在部分描述路径分析。
Sympa 2010年

是的,对不起,我把这些字母弄混了;)
nico 2010年

1

对于那些想要一些直觉的人,相关可以看作是某个角度的余弦。因此,考虑3D中的三个向量,假设A,B和C,每个向量对应一个变量。问题是当已知A与B之间的角度以及B与C之间的角度时,确定A与C之间可能的角度范围。为此,您无需安装任何软件即可使用在线工具。只需转到页面http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php


0

让我们举一个例子:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

对于某些x,A和B将具有显着的相关性,类似地,A和C也将具有显着的相关性,但B和C的相关性将不显着。

因此,如果A和B相关并且A和C相关,那么B和C也相关也不一定是正确的。

注意:为了深入理解,请在大数据上考虑此示例。


这些主张通常是不正确的。 根据到的值,可以将和高度相关。 可能与不相关CBCx 6 A Bx1x6ABCx1x9

我对Abhishek Anand的回答感到满意,因为最终所有事物在某种程度上都与其他事物相关。而且,我喜欢他根据统计意义对它进行基准测试的方式。使用该框架后,很明显,如果A和B与C在统计上显着相关,则A或B不一定在统计上显着相关(使用我原始问题的实际框架)。我认为排气孔图可以很好地从视觉上解释该概念。
Sympa'4

@whuber我同意你的看法。它只是一个示例示例,解释了为什么没有必要
Abhishek Anand

很好-但是您似乎对这些向量之间的相关性有一个误解。 没有你做出这些向量的相关系数的发言通常是正确的。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.