相关在什么条件下暗示因果关系?


85

我们都知道,所有第一年统计专业的学生都鼓吹“不代表因果关系”的口头禅。有一些很好的例子在这里说明的想法。

但是有时候关联确实暗示了因果关系。以下示例摘自该Wikipedia页面

例如,可以对同一对双胞胎进行一项实验,这些双胞胎在其测试中始终获得相同的成绩。一对双胞胎被送去学习六个小时,而另一对被送往游乐园。如果他们的考试成绩突然出现较大差异,这将有力证据表明学习(或去游乐园)对考试成绩有因果关系。在这种情况下,学习分数和考试分数之间的相关性几乎可以肯定是因果关系。

还有其他情况下关联暗示因果关系吗?


16
相关性和链接的强烈潜在原因表明存在因果关系,除非得到证明,否则可能是最好的。
詹姆斯

8
卡尔·波普尔不是说人不能建立因果关系:科学理论本质上是抽象的。它们可能是伪造的,而我们在伪造某些事物方面遇到的困难使我们想到因果关系的事实……
罗宾吉拉德

3
杰恩斯有趣的反例:我们有演绎关系,“没有云”意味着“没有雨”;谁会相信“无云”是“无雨”的物理原因?
概率

4
让我们使用不同于“隐含”的术语,因为在字典中它的含义包括1.建议和2.必要(!)
rolando2 2012年

孪生那个例子甚至有意义吗?我的意思是说,因果关系是,学习方法/学习方式之间的差异会导致双胞胎的考试成绩出现差异。但这只是一个样本,即使样本量很大,也需要一组双胞胎才能产生相反的反应来打破假设,即黑天鹅的风格……@probabilityislogic:“没有云”的概念是否具有物理意义含义?如果是,那么我不明白为什么第二部分令人难以置信。
naught101

Answers:


33

相关性不足以进行因果关系。可以想象一下,那些双胞胎总是在测试中被欺骗,只要拥有一台能够给他们答案的设备,就可以绕开Wikipedia的例子。前往游乐园的双胞胎会丢失设备,因此等级较低。

弄清楚这些问题的一个好方法是考虑一下贝叶斯网络的结构,该结构可能会生成测得的量,正如Pearl在《因果关系》一书中所做的那样。他的基本观点是寻找隐藏的变量。如果存在一个隐藏变量,而该变量在被测样本中没有发生变化,则相关性不会暗示因果关系。公开所有隐藏变量,您就有因果关系。


我很难理解为什么相应贝叶斯网络中的箭头方向与因果关系有任何关系。例如,A-> B和B-> A表示因果关系的不同方向,但是这两个结构的贝叶斯网络是等效的
Yaroslav Bulatov 2010年

6
面对干预,它们并不等同。
尼尔·G

从某种意义上说,这些贝叶斯网络是等效的,因为从其中一个采样到的数据,您无法分辨是哪一个
Yaroslav Bulatov

4
嗯...我还不很了解真实的统计信息...但是根据定义,“暴露所有隐藏变量”不是不可能吗?您怎么知道什么时候没有“隐藏”变量了?
Craig Walker 2010年

4
@Craig这就是重点;这是不可能的。
Justin L.

35

流行病学的角度看,我将添加一些关于因果关系的附加评论。这些论点大部分取材于Prince等人的《实用精神病流行病学》。(2003)。

因果关系或因果关系解释是迄今为止流行病学研究中最困难的方面。例如,队列研究和横断面研究都可能导致混淆效应。引用S. Menard(纵向研究,Sage大学论文76,1991),HB Asher进行因果建模(Sage,1976)最初提出了要满足的以下标准:

  • 例如,实验组和对照组之间的差异或两个变量之间的非零相关性表明,所讨论的现象或变量必须共鸣。
  • 该关系一定不能归因于任何其他变量或变量集,即,它一定不能是虚假的,但是即使在控制其他变量时也必须保持这种关系,例如,通过实验设计中的成功随机化表明(实验与实验之间没有区别)治疗前的对照组)或两个变量之间的非零偏相关,而其他变量保持不变。
  • 假定的原因必须在预期的影响之前或与之同时发生,如原因发生的变化所显示的,且发生的时间不得晚于相关的影响变化。

尽管可以使用横截面研究或按时间排序的横截面研究容易地检查前两个标准,但只能使用纵向数据评估后者,但生物学或遗传特征除外,可以假定没有纵向数据的时间顺序是生物学或遗传特征。当然,在非递归因果关系的情况下,情况变得更加复杂。

我也喜欢下面的图示(在上述参考文献中的第13章),该图示总结了Hill(1965)颁布的方法,其中包括9种与因果关系相关的不同标准,这也由@James引用。原始文章确实的标题是“环境与疾病:联系还是因果关系?” (PDF版本)。

希尔1965

最后,Rothman最着名的著作《现代流行病学》Modern Epidemiology)(1998年,Lippincott Williams&Wilkins,第二版)的第2章从统计和哲学的角度对因果关系和因果推论进行了非常完整的讨论。

我想添加以下参考文献(大致来自流行病学在线课程)也很有趣:

最后,这篇综述提供了因果模型的更大视角,即统计中的因果推论:概述(J Pearl,SS 2009(3))。


18

问题的核心是“何时因果关系?” 它不仅需要暗示(或不包括)因果关系。

关于此主题的一本好书叫做Johua Angrist和Jorn-Steffen Pischke,称为《无害计量经济学》。他们从实验的理想出发,在理想的情况下,我们能够以某种方式将正在研究的“治疗”随机化,然后转向产生该随机化的其他方法,以引起因果关系。这始于所谓的自然实验的研究。

用来确定因果关系的自然实验的第一个例子之一是Angrist于1989年发表的有关“终身收入和越南时代彩票草案”的论文。本文试图估计兵役对终身收入的影响。估计任何因果关系的一个关键问题是某些类型的人可能更容易入伍,这可能会使对这种关系的任何衡量产生偏差。安格里斯特(Angrist)使用越南彩票抽奖创建的自然实验有效地将治疗“兵役”“随机分配”给一群人。

那么我们什么时候有因果关系呢?在实验条件下。我们什么时候接近?根据自然实验。还有其他一些技术可以使我们接近“因果关系”,即它们比单纯使用统计控制要好得多。它们包括回归不连续性,差异差异等。


15

当缺乏相关性被用作缺乏因果关系的证据时,相反的情况也存在问题。这个问题是非线性的。在查看相关性时,人们通常会检查Pearson,这只是冰山一角。


14

您的示例是一个受控实验。我知道关联可能暗示因果关系的唯一其他上下文是自然实验的上下文。

基本上,自然实验是利用某些响应者分配给现实世界中自然发生的处理方法的优势。由于实验者不控制受访者对治疗组和对照组的分配,因此暗示因果关系的相关程度可能在某种程度上较弱。

有关更多信息,请参见Wiki链接/自然实验。


12

在我看来,APA统计工作组对此进行了很好的总结

”从非随机设计中推断因果关系是一个冒险的企业。使用非随机设计的研究人员还有额外的责任,以解释其设计中所包含的协变量背后的逻辑,并提醒读者注意可能解释其结果的合理的竞争对手假设。即使在随机实验中,将因果关系归因于治疗状况的任何方面也需要其他实验的支持。''-APA工作组


11

奥斯丁·布拉德福德·希尔爵士在皇家医学会主席的致辞中(环境与疾病:协会还是因果关系?)解释了九个标​​准,这些标准有助于判断两个相关或相关变量之间是否存在因果关系。

他们是:

  1. 协会的实力
  2. 一致性:“是否有人在不同的地方,不同的场合和时代多次观察到它?”
  3. 特异性
  4. 临时性:“哪个是马车,哪个是马?” -原因必须先于结果
  5. 生物梯度(剂量-反应曲线)-效应的大小以何种方式取决于(可疑的)因果变量的大小?
  6. 合理性-是否有因果关系的解释?
  7. 连贯性-因果关系会与其他既定事实相抵触吗?
  8. 实验-(可疑)因果变量的实验性操作是否会影响(可疑)因变量
  9. 打个比方-我们过去是否遇到过类似的因果关系?

9

在双胞胎的例子中,暗示因果关系的不仅是相关性,还包括相关的信息或先验知识。

假设我再添加一条信息。假设勤奋的双胞胎花了6个小时来学习统计考试,但由于不幸的错误,该考试已成为历史。我们是否仍然可以得出结论,认为这项研究是卓越性能的原因?

确定因果关系既是一个科学问题,也是一个哲学问题,因此在讨论因果关系时倾向于引用诸如大卫·休姆和卡尔·波普尔这样的哲学家。

毫不奇怪,医学为通过启发式方法建立因果关系做出了重大贡献,例如科赫关于建立微生物与疾病之间因果关系的假设。这些已被扩展到“分子科赫氏法则”,以证明病原体中的基因编码导致由病原体引起的疾病的产物。

不幸的是,我无法发布超链接,原因是我是新用户(不正确),并且没有足够的“信誉点”。真正的原因是任何人的猜测。


9

仅仅相关性并不意味着因果关系。就这么简单。

但是很少有两个变量之间只有相关性。通常,您还对这些变量是什么以及一个或多个理论有所了解,这表明了为什么变量之间可能存在因果关系。如果没有,那么我们麻烦检查相关性吗?(但是,为大量结果挖掘大量相关矩阵的人们常常没有随便的理论,否则,为什么要打扰呢?与此相反的是,经常需要进行一些探索才能获得关于偶然理论的想法。等等。

对常见批评的回应:“是的,但这只是相关性:它并不表示因果关系”:

  1. 对于随意的关系,必须具有相关性。反复未能找到相关性确实是个坏消息。
  2. 我不只是给你一个相关性。
  3. 然后继续解释可能的因果关系,解释相关性...

2
第一个问题的反例:在一个混沌系统中,您可能有因果关系而没有明显的相关性。
mkt

8

一种因果关系定义的有用的充分条件:

当可以控制一个相关变量(我们可以直接设置其值)并且仍然存在相关性时,可以声明因果关系。


2
最好将Pearl的词用于“直接设置[变量]的值”:一种干预。
尼尔·G

8
  1. 几乎总是在随机试验中
  2. 当有人测量所有称谓时,几乎总是在观察性研究中(几乎从不)
  3. 有时,当有人衡量一些共同创始人时(Pearl的《因果关系》中DAG发现的IC *算法)
  4. 在具有两个或多个变量但未使用相关性作为关系度量的非高斯线性模型中(LiNGAM

大多数发现算法都在Tetrad IV中实现


6

一个相关的问题可能是-在什么条件下可以从数据中可靠地提取因果关系?

2008年的NIPS 研讨会试图凭经验解决这个问题。任务之一是从对变量的观察中推断出因果关系的方向,其中已知一个变量会导致另一个变量,最佳方法是能够在80%的时间内正确提取因果关系的方向。



3

假设我们认为因素A是现象B的原因。然后我们尝试对其进行更改,以查看现象B是否发生变化。如果B不变,并且我们可以假设其他所有内容不变,则有力的证据证明A不是B的原因。如果B确实发生了变化,我们就不能断定A是原因,因为A的变化可能导致了实际因果关系C发生了变化,这使B发生了变化。


你能做出不同的A吗?
RockScience 2010年

2

我注意到在讨论经验范式时在这里使用了“证明”。哪有这回事。首先是假设,它提出了新的想法;然后在“受控条件” [注a]下进行测试,如果遇到“足够” 缺乏证明的情况,则进入假设阶段...期。没有证据,除非一个人可以1)设法在每次发生上述事件时发生[注b],当然2)确定因果关系。1)在无限宇宙中是不可能的[请注意无法证明自然界的无限性]。注释A;没有在完全受控的条件下进行实验,而且条件受更多控制的情况下,与外部宇宙的表象因果关系无限地相似。注b;请注意,您必须完美地描述了“事件”,这大概意味着一种完全正确的语言,大概不是人类的语言。最后一点,所有因果关系大概可以追溯到第一事件。现在,用理论与所有人交谈。是的,我已经正式和非正式地学习过。在末尾; 不,接近并不表示因果关系,也并不表示暂时相关。


1

XY

Y=bX+u

bXYE(b)=BXuE(u|X)=0u YXY

保持偏见是估计器的理想属性,但您也希望估计器高效(低方差)且保持一致(概率趋于真实值)。参见高斯-马尔可夫假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.