因果关系暗示吗?


118

关联并不表示因果关系,因为可能有很多解释。但是因果关系是否暗示相关性?凭直觉,我认为因果关系的存在必然意味着一定的相关性。但是我的直觉并不总是在统计学上对我有用。因果关系暗示吗?


5
问题是,如果您在字典中查找“隐含”,则会同时看到“建议”和“必需”。
rolando2

6
关联并不表示因果关系,但它确实在暗示“抬头看”的同时暗示性地摇动了眉毛,并毫不掩饰地打手势。xkcd.com/552
jchristie 2014年

1
问题本身似乎并不是在寻找特定的,事实的答案,正如使用隐含一词所表明的那样。上面的参考可能是最终的。或更像一个大概,但我无法证明这一点。
jchristie 2014年

Answers:


96

如以上许多答案所述,因果关系并不意味着线性相关。由于许多相关性概念来自严重依赖线性统计的领域,因此通常将相关性视为等于线性相关性。在维基百科的文章是这样一个正常的来源,我真的很喜欢这个形象:

相关示例

看一下底行中的一些图形,例如第四个示例中的抛物线形状。这就是@StasK答案中发生的事情(添加了一点噪音)。Y可能完全由X引起,但是如果数值关系不是线性和对称的,则相关性仍为0。

您要查找的词是相互信息:这是相关性的一般非线性版本。在这种情况下,您的说法将是正确的:因果关系意味着相互之间的信息高度一致


3
通常,但并非总是如此,高相互信息伴随因果关系。参见@gung的答案,其中“如果原因与另一个因果变量完全相关,而结果恰好相反”。
Neil G

5
两个原因则与总是相互抵消并没有多大意义,我的作用是相反的论点的原因。我总是可以认为是有独角兽在引起某种后果,而小妖精则完美地抵消了他们的努力。我避免这样做,因为它很傻。但也许我误会了你的意思。
Artem Kaznatcheev 2012年

11
他的榜样比需要的极端。您可能拥有布尔变量和,使得和是原因,并且(mod 2)。这样,缺少,和的知识就不会有相互的信息。 是一个未被发现的混杂因素-尽管这很常见,但您称之为“ gremlins”。C A B C C = A + B B A C BA,BCABCC=A+BBACB
尼尔G

2
@NielG我同意你的第一句话,但第二句话不同意。仅仅因为A&B导致C,并不意味着A导致C和B导致C。我不明白为什么原因必须在&上分配。
Artem Kaznatcheev

4
尽管如此,A仍是C的原因是因为更改A仍会更改C。因此,即使我们没有观察到B,C仍然依赖
Neil G

41

严格的答案是“不,因果关系不一定意味着相关性”。

考虑和。因果关系没有得到任何更强:决定。然而,和之间的相关性为0。证明:这些变量的(共同)矩为: ; ; 使用标准正态分布的特性是它的奇数矩都等于零(例如,可以很容易地从其矩生成函数中得出)。因此,相关性等于零。ÿ = X 2χ 2 1 X ý X ÿ ë [ X ] = 0 ë [ ÿ ] = ë [ X 2 ] = 1 c ^ ö v [ X ÿ ] = ë [ X - 0 Y - 1 ] =XN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0

为了解决一些评论:该参数起作用的唯一原因是因为的分布以零为中心,并且围绕0对称。实际上,具有这些特性的任何其他分布将有足够的矩数会起作用代替,例如,在均匀的或拉普拉斯。过于简单的说法是,对于每一个正值,有一个同样有可能负值相同幅度的,所以当你方的,你不能说的更大的值与更大或更小值相关联的XN(0,1)(10,10)exp(|x|)XXXXY。但是,如果您说,则,,和。这是完全合理的:对于每个值都小于零的值,值很有可能大于零,因此的较大值与较大值相关联。(后者具有非中心分布;如果您感兴趣,可以从Wikipedia页面提取方差并计算相关性。)XN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36X - X X ÿ χ 2Cov[X,Y]=E[XY]E[X]E[Y]=3630=60XXXYχ2


2
@DQdlM:由于密度的均匀性,标准随机变量具有消失的奇数中心矩。马修:正如StasK所展示的,答案是否定的,因为相关不是唯一的依赖类型。
Emre '04

3
@DQdlM:请参阅Wikipedia 相关页面上第一幅图像的底部中间图。这就是StasK的情况。它仅在x关于原点均匀分布时才有效(即,如果,相关性将很高)XN(3,1)
naught101

3
PS我很高兴您发布了这个答案。没有这个答案,很难相信这个问题持续了这么长时间。这是我看到此问题时想到的确切示例,但没有时间写出来。很高兴您花时间。干杯。
主教2012年

3
@cardinal:是的,我想我们所有人都在研究生班学习了这些简单的反例……是的,从协方差的推导中,您只需要将第一和第三时刻设为零即可。如果您有一个不平凡的不对称分布示例,其第三矩为零(超过5或6个点的微调概率质量不计算在内),我会很好奇。
StasK 2012年

3
在这里,“因果关系”被假定为可以表达的一个函数。也就是说,当且仅当存在可测量的函数,导致,使得。我想我们可以用余生讨论这种论证的有效性。Y f Y = f X XYfY=f(X)

31

本质上是。

关联不表示因果关系,因为可能有其他原因导致的关联解释。但是为了使A成为B的原因,它们必须以某种方式关联。意味着它们之间存在相关性-尽管相关性不一定是线性的。

正如一些评论者所建议的那样,使用“依赖”或“关联”之类的术语而不是关联可能更合适。尽管正如我在评论中所提到的那样,我已经看到“相关并不意味着因果关系”,远远超出了简单的线性相关性,因此,从本质上讲,我已经将“相关性”扩展到了A和B之间的关联。


16
我倾向于将词相关性保留为线性相关性,而将依赖项用于可能具有或不具有线性相关性的非线性关系。
2012年

4
@Memming我也一样,除了人们不喜欢“相关性并不意味着因果关系”这样的事实:相当复杂的非线性关联。
Fomite '04

记忆是正确的。如果您不是要表示Pearson相关,则需要定义相关。
尼尔·G

1
@NeilG或就此而言,可以通过转换一个变量或另一个变量来获得线性皮尔逊相关性。问题是格言本身过于简单。
Fomite '04

1
@EpiGrad:都不错。通常来说,相关只是A的更多,同时B也更多。我认为,清楚地使用相关的广泛定义将使您的答案受益。
Neil G

23

添加到@EpiGrad的答案。我认为,对于很多人来说,“相关”意味着“线性相关”。非线性相关性的概念可能并不直观。

因此,我想说“不,它们不必关联,但它们必须关联 ”。我们在实质内容上达成共​​识,但在传达实质内容的最佳方法上存在分歧。

这种因果关系的一个例子(至少人们认为是因果关系)是在接听电话的可能性和收入之间。众所周知,与中等收入人群相比,收入范围两端的人接听电话的可能性均较小。人们认为,穷人(例如,避免收帐员)和富人(例如,避免人们要求捐款)的因果模式是不同的。


21

XY

考虑以下因果模型:

XYU

XUY

现在让:

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

UP(Y|X)=P(Y)XYYX

XUYXUXYUY {X,U}YXYXYXYXYU

简而言之,我会说:(i)因果关系表明依赖;但是(ii)依赖关系是功能/结构依赖关系,它可能会或可能不会转化为您正在考虑的特定统计依赖关系。


卡洛斯(Carlos)说的正确,如果我们知道因果模型中涉及的所有变量,那么这个问题(统计隐身性)消失了吗?
markowitz '18

@markowitz您将需要观察所有确定性的水平,因此这不是一个非常现实的情况。
卡洛斯·辛纳利

我认为您的回答是“是”。没错,我认为的情况是不现实的;我知道 但是,问题仅与您描述的逻辑有关,而最终确定性是要掌握它。我的信念是类似“因果关系暗示统计关联”,此页面中的其他答案听起来像这样。毕竟,您的示例还是有点不切实际的,但并非出于这个原因就没有兴趣了。在总体上,似乎没有统计关联的因果关系似乎有些不切实际,但在理论上很有趣。
markowitz '18

1
@markowitz,当模型对图形不忠实时,就会发生“统计隐身”。对于精确的取消,这取决于对参数化的特定选择,因此有人认为这确实不太可能。但是,接近取消可能是合理的,因为它取决于参数的邻域,因此全部取决于上下文。这里的要点只是,您需要使因果假设明确,​​因为从逻辑上讲,因果并不暗示关联本身,而是需要额​​外的假设。
卡洛斯·辛纳利

13

除非原因的发生率和大小完全没有变化并且因果力没有任何变化否则原因和结果将是相关的。唯一的其他可能性是,原因是否与另一个因果变量完全相关,而结果却恰好相反。基本上,这些都是思想实验条件。在现实世界中,因果关系将以某种形式暗示依赖性(尽管可能不是线性相关)。


3
@NeilG,我沉迷于斜体
gung

1
一些理论实际上暗示了这一点,例如许多博弈论模型。在一些无法辨别差异的经验情况下(尽管实际上会有一个“斜体”形式:-),其中包括两个级别的进化选择压力指向不同方向时的“中性”无基因变化场景。
conjugateprior

1
我喜欢第一个例外,但不喜欢第二个例外。我喜欢认为,拨动开关会使灯亮,但是如果我碰巧只在停电期间拨动开关,则不会发生任何事情。也许没有真正的因果关系。
emory 2012年

1
@ naught101,您提出了一个要点,这已经在本页其他地方进行了讨论。我已经编辑了答案。但是,当我与人一起工作时,即使我告诉他们,我也不认为他们有强烈的相关性概念必然是线性的。尽管他们不会用这些术语来表达,但我认为大多数人都将“关联”理解为更接近“功能”。但是,我应该更清楚地使用术语,并且应该从头开始。
gung

2
@emory:点亮的原因实际上是电路的闭合(这是由开关的轻拂引起的,环境条件包括正常工作的电网)。停电期间,轻按开关不会闭合电路,因为在其他地方已断开。因此,从某种意义上讲,停电是gung在谈论的“相反”效果(即,灯光亮起,停电将其关闭)。也可以将其视为无效作用。
naught101

2

这里有很好的答案。Artem KaznatcheevFomitePeter Flom指出,因果关系通常意味着依赖而不是线性相关。Carlos Cinelli给出了一个示例,其中没有依赖关系,因为生成函数是如何设置的。

我想补充一点,在您可能很好地使用的各种数据集中,这种依赖关系如何在实践中消失。像卡洛斯的例子那样的情况不仅限于“思想实验条件”。

自我调节过程中,依赖性消失了。例如,动态平衡可确保您的体内温度与室温无关。外部热量会直接影响您的体温,但同时也会影响身体的冷却系统(例如出汗),从而使体温保持稳定。如果我们以极快的时间间隔对温度进行采样并使用非常精确的测量,我们就有机会观察因果关系,但是在正常采样率下,体温和外部温度似乎是独立的。

自调节过程在生物系统中很常见。它们是由进化产生的。无法调节体温的哺乳动物可以通过自然选择去除。研究生物学数据的研究人员应注意,因果关系可能会在其数据集中消失。


-3

没有任何关联的原因会不会是rng?

除非像接受的答案所暗示的那样,除非您对“相关性”一词使用了非常有限的解释,否则这是一个愚蠢的问题-如果某件事“引起”了另一件事,那么从定义上讲它会受到某种方式的影响,是否人口增加,或只是强度增加。

对?

再说一次,您可能正在讨论更多类似的东西,某些东西受其他东西影响的可见性,我想这看起来像是因果关系,但实际上您并没有衡量自己认为的东西...

是的,我想简短的答案是:“是的,只要您不能创建熵。”

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.