相关并不意味着因果关系;但是什么时候变量是时间呢?


41

我知道这个问题已经问过十亿次了,因此,在网上看后,我完全相信2个变量之间的相关性并不表示因果关系。在我今天的一次统计讲座中,我们做了一次物理学家的客座演讲,内容涉及统计学方法在物理学中的重要性。他说了一个惊人的声明:

相关性并不意味着因果关系,除非变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。

我以前从未听过这句话。物理学家/相对主义者对“因果”的看法与统计人员不同吗?


12
这是一个模糊的陈述,可能不正确。除了放射性衰变,时间不会引起任何其他事情。词汇会随着年龄的增长而提高,但完全是由社会化和教育所介导的。您能否描述断言的上下文和问题?
AdamO

@AdamO 当您知道时间优先级时,因果关系的条件更简单,但它们并没有这个问题那么简单。
尼尔·G

2
听起来好像他们在描述格兰杰因果关系
巴克

1
只是指出,如果您真的想知道物理学家如何看待因果关系,那么您更有可能在Physics上获得这些答案。该问题的修改版本可能在那里。
David Z

2
我听过有人说,将时间作为独立变量添加到模型中只是意味着您没有花太多时间尝试对生成自变量的数据生成过程进行建模。
亚历克西斯(Alexis)

Answers:


37

我将提供另一个答案,因为我认为当前提供的答案错过了物理学家所作陈述的重点。引用的语句是:

“相关性并不意味着因果关系,除非变量之一是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。”

物理学家不是在说:

“如果X和Y是相关的,并且X在Y之前,那么相关就意味着因果关系。”

那是不正确的。物理学家说的是:

“如果X和时间相关,那么这种相关意味着时间的增加会导致 X的增加(或减少)。”

一个例子可能是熵。如果我们在时间流逝与熵增加之间有很强的相关性,那么我们可以说时间的增加会导致熵的增加。请注意,这忽略了熵增加的物理原因(粒子衰减,宇宙膨胀等)。

对因果关系的传统要求之一是时间进展,即X仅在X出现在Y之前才导致Y。但是如果您的变量之一是时间,则时间进展已内置在关系中(如果存在关系)。

编辑:基于各种评论,我将添加以下内容。我认为物理学家可能在这里对“因果关系”一词使用了不同的观念。他似乎在说,如果自变量与时间之间存在相关性,则可以得出结论,自变量会随着时间的流逝而发生可预测的变化。有人可能会说这些更改是由于时间的流逝“引起”的,这并不是统计学家真正使用“ cause”(因果)或“ causation”(因果)这两个词的方式,因此可能引起一些混乱。


3
+1正是这样,我也这样解释了该声明(请参阅我先前的评论和答案)
Ruben van Bergen

5
如果要在图形模型中使时间成为变量,那么时间没有原因,而是一切的原因。因此,虚假的说法是暗示时间会导致任何特定的事物,因为时间会导致一切。
尼尔·G

2
不管是否言出必行,这似乎与物理学家所说的相符。不要开枪;)。同样,我认为如果目的是教育人们相关性和因果关系之间的关系,即使您认为实际上考虑时间导致事情微不足道,这也是值得的。
Ruben van Bergen

6
@ GeoMatt22-我不同意“时间导致一切”的想法。考虑多次掷硬币-即使我掷了几个小时,我仍然应该获得约1/2的正面比率,因此时间不会“引起”正面或背面的概率。将冰块放到房间里,温度会升高,随着时间的流逝会融化-在这种情况下,时间“导致”温度平衡。这可能与统计学家使用的“原因”一词有所不同,但我认为这是从物理学的角度进行的功能性解释。
邓肯

6
关键是您永远不会考虑任何变量都会导致时间流逝的图形结构。因此,唯一的图形结构是时间是所有其他变量的原因。它可绝对没有对他们的影响(如在你的例子),但因果箭头是关于因果图形结构,这意味着要求的条件独立性的关系给出的意见措施。影响力的大小是一个单独的问题。
Neil G

15

我们不知道物理学家的意思。有两种不同的解释。


Y Y X Y X Y XXYYXYXYXYXYWXWYXVZWYZXY

但是,时间优先级极大地简化了因果关系断言的条件,您可以在Pearl的因果关系书第2.7章“因果关系的本地标准”中找到这些条件。

XYZSX

  1. (Z⊥̸YS)
  2. (ZYSX)

本质上,(1)暗示在给定时间优先权的情况下是的潜在原因,而(2)暗示能够打破这种关系,只有在导致才会发生这种关系。Y X X YZYXXY

对于没有时间信息的真正原因,这种情况比Pearl的定义要简单得多。


在一些其他的答案中概述另一种可能性是,物理学家意味着,如果是时间的流逝,它与相关,那么会导致。这个说法是正确的,但是虚假的,因为时间的流逝是所有其他变量的原因,我的意思是因果图形结构就是这种方式。因果图形结构是关于给定观察和干预的独立性关系的一组主张。Y X YXYXY


2
正如我在对GeoMatt22的回答的评论中提到的那样,我认为物理学家的陈述与优先次序没有任何关系。
Ruben van Bergen

2
@RubenvanBergen正如我在另一个答案中解释的那样,这种解释是虚无的。时间决定一切。
尼尔·G

在您的示例,和是依赖的,但不相关(除非和通过未指定的连接而相关)。X YXVZWYXYVW
Ruben van Bergen

@RubenvanBergen它们可以相关。这取决于依赖项的性质。顺便说一句,我说和取决于观察到的XYZ
尼尔·G

1
@RubenvanBergen我认为您误解了箭头。这些是因果箭头,并且信息可以从流到由于说明远在。假设是“降雨”,是“喷头关闭”,是湿地面,是雨声,是喷头关闭的指示器。现在假设地面是湿的,会由于解释而与相关。VWZVWZXYXY
Neil G

10

我推测您的客座讲师意味着在物理学中,唯一能够幸免于复制的关联就是那些存在潜在因果关系的关联。时间变量是一个例外,因为它是唯一不受物理学家控制的变量。这就是为什么。

在物理学中,我们通常处理可重复的现象和实验。事实上,几乎可以肯定,任何实验都是可重复的,并且可以在以后由您或其他研究人员复制。因此,假设您观察到一个样本,其中是关注变量和独立变量观察值。正如我上面提到的,我们完全控制变量,并且可以将它们设置为我们想要的任何值。yi,xkixkxk

您的物理学家家伙说,在这种设置中除非存在因果关系,否则您不会看到任何相关性。为什么?因为其他人甚至您自己将使用任何组合和序列重复实验,因此只有具有因果关系的相关性才能在实验的复制中幸存下来。一旦您以实验的所有可能组合收集了足够的数据,所有其他(虚假)相关性将消失。x k jCorr[y,xk]xkj

这种情况与无法进行实验的社会科学和某些商业应用形成了鲜明的对比。您仅观察到一个国家的GDP序列,就无法在其他所有条件相等的情况下改变失业率并观察相关性。

现在,时间是物理学家无法控制的唯一变量。2017年1月1日只有一个。他不能重复这一天。他可以重复任何其他变量,但不能重复时间。这就是为什么说到时间(不是经过的时间或年龄)时,物理学家和其他所有人都在同一条船上的原因:相关性并不意味着对他有因果关系。


5

我以前从未听说过,根据我所熟悉的因果关系的概念(尽管我不是物理学家),它不是真实的。

典型地,对于到事业它是必要的是之前时刻。所以,如果先于那么就不能“造成”的,无论任何相关性。此外,在之前的并不是因果关系的充分条件(也无论是否相关)。Y X Y Y X XXYXYYXXXY


1
我认为您误解了这位物理学家的意思。我认为他们指的是两个变量相互关联的情况,而这些变量之一就是时间。您假设两个变量都不是时间,但是时间进来的是一个变量先于另一个。
鲁宾·范·伯根

3
我试图指出,通常是由于某些原因“导致”某些变化需要时间的流逝,但是通常不将与的相关性称为“因果关系”(是必要但不够)。我要传达的信息是,我不知道这是否是物理学家的意思。我想象物理学家通常会说“碳14随时间的减少是由放射性衰变引起的”,而不是“ ...由时间的流逝引起的”。(尽管也许“ 需要时间的流逝”。)ÿ Δ YYttΔt
GeoMatt22

@RubenvanBergen也许是讲师试图表达某种简化形式,例如Wikipedia似乎称之为“ 因果结构 ”?与时间的关联(在足够精细的尺度上)将暗示“类似时间的方向”的可微性。我可能看错了它,但是浏览Wikipedia的用法与我上面写的相似:“因果结构”定义了“前置”的含义。但是对我来说,这似乎仍然是“必要但不足”的。
GeoMatt22

我只想问一个问题:“相关性并不意味着因果关系,除非变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也意味着因果关系。” 对我来说,这意味着我们有一些与时间相关的变量X。我们得出结论,时间的流逝导致X,而不是X的时间流逝,因为后者是荒谬的。
鲁宾·范·卑尔根

4

我认为时间不一定是唯一的,但这无疑是一个很好的例子。关键是,通常,如果A和B相关联,则可以推测出存在某些常见的因果关系,但是您不知道A是导致B还是B导致A,或者第三个变量C导致A和B都发生。 ,在某些情况下,您可以排除任何其他变量导致A,因此一定是A引起了B。这样的示例是一个受控实验,(实验者)控制A。然后,如果进行了更改, A与B的变化“相关”,您知道一定是A导致了B的变化,而不是相反。

另一种情况是此示例随时间推移而发生的情况,如果您只是知道没有其他变量可能导致A,因为您知道没有任何因素会影响A。由于时间每次流逝仅一秒世界上任何其他变量,那么,如果时间与您感兴趣的某个变量的变化相关(例如,地球上的人数),您肯定会知道时间的流逝一定会导致该变量发生变化,而不是而不是导致时间流逝或以其他方式改变的变量(例如,时间没有提前,因为有更多的人出生,所以必须相反)。

当然,您仍然不知道因果关系是否直接。推测时间的流逝本身不会自动产生更多的人。相反,历史的发展会导致社会各个方面的进步,这会导致人口规模的增加(甚至这是许多小因果关系的简化)。但是,不管发挥何种精确因素,您肯定知道A(最终)会导致B,而不是相反。


在您的第一段中,您的三种情况并不详尽。还有其他与相关性兼容的图形结构。
Neil G

对于任何现实问题,都不可能排除导致的所有其他变量。还有,让你通过的原因排除的信息流的方法,是导致,这就是所谓的后门方法。这可以建立因果关系。A BAAB
Neil G

1
正如我在另一个答复中所说的那样,将“时间的流逝”解释为变量并声称它一定是其他变量的原因的想法是虚无的。这个时间变量是一切的原因。
Neil G

从广义上讲,我相当确定我列出的选项是所有可能的选择。我们既可以让A引起B,也可以让B引起A(直接或间接),或者我们可以使别的东西同时引起A和B。当然,也可以将它们组合使用,例如,A对B产生某种因果关系,但在同时第三个因素C也因果关系影响了A和B。然后我想碰巧是另一个选择,但这很无聊。但是我很想知道其他任何可能性。
Ruben van Bergen

1
看看我的答案。我说明了第四种情况,尽管还有更多的情况。
尼尔·G

4

实际上,相关确实暗示了因果关系。

可能是A引起了B,或者C引起了A和B。

但是,相关性不能证明因果关系。

这是不言而喻的。


5
环顾四周的答案和评论表明,这里的对话已经超越了这些琐碎的琐事。我建议查看一些帖子,以帮助理解这些问题。
ub

3

我将其解释为语义而不是数学/统计参数。我也将其视为相当严格的概括。

布拉德福德希尔标准经常在流行病学中使用,提供有关因果关系的思考一个良好的框架。无论时间是否是一个因素,没有任何东西可以确切地证明因果关系,而且我怀疑讲师不是在试图做出如此强烈的断言。但是,许多不同的因素都可以用作因果关系的合理论据。

例如,布拉德福德·希尔(Bradford Hill)标准表明,变量之间的关联强度可以提供因果关系的证据,但单凭其不足。同样,与其他已知/所相信事实相一致的关联可能比与流行知识不一致的关联更能暗示因果关系。临时性也是标准之一-原因应先于其影响。关联以及我们对因果关系所作的推论必须具有时间意义。我建议检查其他条件。有些是流行病学特有的,不适用于物理学,但它仍然是一种有用的思维方式。

要点是,虽然没有任何证据可以最终证明因果关系,但您可以基于许多不同的逻辑检验为其建立一个很好的案例。我认为将绝对优先权放在任何一个标准(例如时间)上都是不合适的,但是在证明因果关系合理时,时间性可能是一个重要因素。

这就引出了关于统计的更广泛的观点:通常来说,我们使用统计来论证。我们使用数据和统计工具得出一定的观点。通常,可以使用相同的数据(甚至是相同的工具)来产生冲突点。我们无法在数学本身中找到因果关系的确定证据,但是我们可以将统计工具部署为更广泛论点的一部分。有关更多信息,我建议使用Abelson的“ 统计学”作为“原则性论点”。

为了使这种情况回到原始状态,假设您已经进行了一项实验,研究溶液中某种化学物质的浓度对溶液温度的影响。您怀疑添加更多这种化学物质会导致反应升高温度。随着时间的推移,您会逐渐增加。您可以查看温度随时间变化的情况,并观察到温度升高。所有这些表明,温度随着时间的推移而上升。并不能证明时间本身(或其他任何原因)具有一定的因果关系。但是,它的确为更广泛的争论提供了一些证据,即该化学物质浓度的增加导致反应温度升高。


将“时间优先”的希尔标准应用于时间本身是一种奇特的想法。时间当然早于时间本身。我们所知道的趋势很少是因果关系,而是反映了其他同时发生的现象。在这个例子中,我认为时间不会造成任何影响,但是总结了环境中的全球变化,这些变化恰好影响曝光和结果。
AdamO

我并不是在说我们将论点应用于时间本身,而是在说,如果我们有时间作为数据的一部分,我们可以使用它来作为更广泛的因果关系论的一部分。通过证明我们的观察具有时间意义,我们更接近于提出合理的因果论据。希望,我们可以开展更多工作,以提出更强有力的论据。
djlid

3

该句子非常简单,不值得深思(与优先级无关)。

如果变量与时间之间存在确定的相关性(即,我们知道时间的增加伴随着变量的增加,这是给定的),那么我们就知道“因果”的方向:即时间增加,导致要增加的变量。

因为“ nah-uh”的另一种假设,可能是时间只会增加,因为变量增加”在给定的时间工作方式下根本站不住脚。


这听起来像是一个愚蠢的观察,但对试图证明因果关系的研究设计具有重要意义。医学上的一个重要例子是进行横断面研究和队列研究之间的区别。

例如,一项旨在发现吸烟与癌症之间联系的横断面研究可能会吸引一组人,将其分为吸烟者与非吸烟者,并查看每组中有多少癌症与非癌症。但是,这是不充分的证据,因为吸烟与癌症之间的相关性也可以解释为“患有癌症的人更有可能喜欢吸烟”。

但是,如果您进行队列研究,即以一组吸烟者和一组非吸烟者为对象,并随着时间的推移对其进行跟进,则测量变量“吸烟者的癌症减去非吸烟者的癌症”,并得出阳性结果。该变量与时间的相关性(在合理的假设下,例如开始吸烟的时间是恒定的,并且与时间无关),那么您就知道“时间”是造成癌症差异的原因,因为您不能声称癌症的发病率增加在抽烟组中花费更多时间。因此,您可以声称吸烟时间长和吸烟者组中与更高吸烟率相关的阳性癌症差异之间存在因果关系。(或更简单地说,属于吸烟人群的时间导致患癌的风险成比例增加)。

此外,横断面研究的弱点,即“癌症患者更可能吸烟”的可能性现已消失,因为吸烟已被排除在“时间与癌症”之外方程(此处假定为常数,因此不受时间影响)。换句话说,通过以这种方式进行研究,我们研究了一个非常具体的因果关系。如果我们想研究反向因果关系适用的程度(即随着时间的流逝,最终罹患癌症的人多久会吸烟),那么我们就必须设计一项队列研究“未来癌症与无未来癌症”,并衡量随时间推移吸烟的吸收情况。

更新回应评论:

注意,这是关于因果关系的讨论,而不是寻找直接因果关系的讨论。混淆的问题是一个单独的问题。(即没有任何迹象表明没有一个独立的第三个变量,让你更有可能是吸烟者,并随时间而增加患癌症的几率)。即,就反事实因果关系而言,我们没有明确表明“如果不是因为吸烟这些人就不会得癌症”。但是我们表明“如果没有时间,吸烟群体与癌症之间的关联就不会增加”。(即,这种关联不只是癌症患者的快照,仅仅是偏爱是否参加吸烟组,而是随着时间的流逝而加强)。


4
“因此,由于吸烟,您可以声称时间流逝与更多的癌症发展之间存在因果关系。(或更简单地说,花时间会导致癌症风险成比例增加)。” —不,你不能那样做。由罗纳德·费舍尔爵士(!)支持的卷烟公司多年来争论说,遗传易感性是吸烟和癌症的潜在常见原因。这个例子在Pearl的书的背面(第353页)。
Neil G

@NeilG不,我坚持我的榜样。您要提出的观点不是反向因果关系之一,而是令人困惑的地方。就我的例子而言,它表明在吸烟人群中度过的时间与癌症发生率的增加有关。但是,这本身并不能证明“遗传易感性”并不是吸烟人群中吸烟率上升的原动力。两件事。这里的要点是,将因果关系作为时间变量引入可以消除“反向因果关系”论点(即,癌症会使您吸烟),而不是消除“混淆”论点。
Tasos Papastylianou

1
您的评论是正确的,但似乎与您写的内容不一致。您写道:“抽烟时间导致患癌的风险成比例增加”。那是不合理的。
Neil G

1
@NeilG很公平,你是对的。我没想到会受到这样的审查,哈哈。我会更准确地改写一下。
Tasos Papastylianou

为什么必然没有时间的增长呢?我们如何才能如此有把握地排除某些因素导致时间提前呢?在我看来,这是最不寻常的主张,需要非常有力的证据。
David Schwartz

3

这实际上是一个关于如何建立因果关系的问题,因为相关但不具有因果关系的事件可能会在时间或空间上相互关联。因此,查看一些相关数据,我们如何确定该关系是否为依存关系?一位明智的研究顾问曾经告诉我,“相关性并不意味着因果关系,它只是告诉您应该去哪里看”。

让我们考虑发现事件A和B在时间或空间上相关的情况。如果我们想调查A导致B的介词,传统的思路是引入必要性充分性的检验-这就是因果关系的真正含义。

  • 如果事件A的缺失导致事件B的缺失,则可以将其称为必要事件
  • 如果 事件A导致事件B,则可以将其称为足够

如果没有牛奶会导致我去商店,那并不是说我进入空牛奶中开车。绝对因果关系意味着无论何时我仍然喝牛奶,我都不会去商店购物。相反,无论何时我在商店里,都是因为我没有牛奶。现在可以很容易地看到在严格意义上积极建立因果关系的问题:大多数事情不是绝对因果关系。我还有很多其他原因,可能与牛奶状态无关。

这是从好的文件中分辨出好论文的简单方法。在仔细的研究中,您将在各处看到足够性和必要性测试。声称小分子药物A可能导致蛋白质复合物B的分解。您将立即看到测试:

必要性 ----test---- ----result---- everything but B --> [nothing] (check for false positive) everything but A --> assembled everything with A-like compound --> assembled (control group)

充足性 A + B alone (in vitro) --> disassembled (check for false negative) A + B + everything --> disassembled (trial group)

这是您使用相关性通过实验为因果关系建立归纳论证的传统方式,这是我有信心您的讲师为之倾倒的!


1
为了强调这一点,时间依赖性也并不意味着因果关系。我们可能使事件A经常导致事件B,并且是B导致C而不是A。然而,A将与C相关但不引起C。
Michael Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.