我知道这个问题已经问过十亿次了,因此,在网上看后,我完全相信2个变量之间的相关性并不表示因果关系。在我今天的一次统计讲座中,我们做了一次物理学家的客座演讲,内容涉及统计学方法在物理学中的重要性。他说了一个惊人的声明:
相关性并不意味着因果关系,除非变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。
我以前从未听过这句话。物理学家/相对主义者对“因果”的看法与统计人员不同吗?
我知道这个问题已经问过十亿次了,因此,在网上看后,我完全相信2个变量之间的相关性并不表示因果关系。在我今天的一次统计讲座中,我们做了一次物理学家的客座演讲,内容涉及统计学方法在物理学中的重要性。他说了一个惊人的声明:
相关性并不意味着因果关系,除非变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。
我以前从未听过这句话。物理学家/相对主义者对“因果”的看法与统计人员不同吗?
Answers:
我将提供另一个答案,因为我认为当前提供的答案错过了物理学家所作陈述的重点。引用的语句是:
“相关性并不意味着因果关系,除非变量之一是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。”
物理学家不是在说:
“如果X和Y是相关的,并且X在Y之前,那么相关就意味着因果关系。”
那是不正确的。物理学家在说的是:
“如果X和时间相关,那么这种相关意味着时间的增加会导致 X的增加(或减少)。”
一个例子可能是熵。如果我们在时间流逝与熵增加之间有很强的相关性,那么我们可以说时间的增加会导致熵的增加。请注意,这忽略了熵增加的物理原因(粒子衰减,宇宙膨胀等)。
对因果关系的传统要求之一是时间进展,即X仅在X出现在Y之前才导致Y。但是如果您的变量之一是时间,则时间进展已内置在关系中(如果存在关系)。
编辑:基于各种评论,我将添加以下内容。我认为物理学家可能在这里对“因果关系”一词使用了不同的观念。他似乎在说,如果自变量与时间之间存在相关性,则可以得出结论,自变量会随着时间的流逝而发生可预测的变化。有人可能会说这些更改是由于时间的流逝“引起”的,这并不是统计学家真正使用“ cause”(因果)或“ causation”(因果)这两个词的方式,因此可能引起一些混乱。
我们不知道物理学家的意思。有两种不同的解释。
Y Y X Y X Y X
但是,时间优先级极大地简化了因果关系断言的条件,您可以在Pearl的因果关系书第2.7章“因果关系的本地标准”中找到这些条件。
本质上,(1)暗示在给定时间优先权的情况下是的潜在原因,而(2)暗示能够打破这种关系,只有在导致才会发生这种关系。Y X X Y
对于没有时间信息的真正原因,这种情况比Pearl的定义要简单得多。
在一些其他的答案中概述另一种可能性是,物理学家意味着,如果是时间的流逝,它与相关,那么会导致。这个说法是正确的,但是虚假的,因为时间的流逝是所有其他变量的原因,我的意思是因果图形结构就是这种方式。因果图形结构是关于给定观察和干预的独立性关系的一组主张。Y X Y
我推测您的客座讲师意味着在物理学中,唯一能够幸免于复制的关联就是那些存在潜在因果关系的关联。时间变量是一个例外,因为它是唯一不受物理学家控制的变量。这就是为什么。
在物理学中,我们通常处理可重复的现象和实验。事实上,几乎可以肯定,任何实验都是可重复的,并且可以在以后由您或其他研究人员复制。因此,假设您观察到一个样本,其中是关注变量和独立变量观察值。正如我上面提到的,我们完全控制变量,并且可以将它们设置为我们想要的任何值。
您的物理学家家伙说,在这种设置中除非存在因果关系,否则您不会看到任何相关性。为什么?因为其他人甚至您自己将使用任何组合和序列重复实验,因此只有具有因果关系的相关性才能在实验的复制中幸存下来。一旦您以实验的所有可能组合收集了足够的数据,所有其他(虚假)相关性将消失。x k j
这种情况与无法进行实验的社会科学和某些商业应用形成了鲜明的对比。您仅观察到一个国家的GDP序列,就无法在其他所有条件相等的情况下改变失业率并观察相关性。
现在,时间是物理学家无法控制的唯一变量。2017年1月1日只有一个。他不能重复这一天。他可以重复任何其他变量,但不能重复时间。这就是为什么说到时间(不是经过的时间或年龄)时,物理学家和其他所有人都在同一条船上的原因:相关性并不意味着对他有因果关系。
我以前从未听说过,根据我所熟悉的因果关系的概念(尽管我不是物理学家),它不是真实的。
典型地,对于到事业它是必要的是之前时刻。所以,如果先于那么就不能“造成”的,无论任何相关性。此外,在之前的并不是因果关系的充分条件(也无论是否相关)。Y X Y Y X X
我认为时间不一定是唯一的,但这无疑是一个很好的例子。关键是,通常,如果A和B相关联,则可以推测出存在某些常见的因果关系,但是您不知道A是导致B还是B导致A,或者第三个变量C导致A和B都发生。 ,在某些情况下,您可以排除任何其他变量导致A,因此一定是A引起了B。这样的示例是一个受控实验,您(实验者)控制A。然后,如果进行了更改, A与B的变化“相关”,您知道一定是A导致了B的变化,而不是相反。
另一种情况是此示例随时间推移而发生的情况,如果您只是知道没有其他变量可能导致A,因为您知道没有任何因素会影响A。由于时间每次流逝仅一秒世界上任何其他变量,那么,如果时间与您感兴趣的某个变量的变化相关(例如,地球上的人数),您肯定会知道时间的流逝一定会导致该变量发生变化,而不是而不是导致时间流逝或以其他方式改变的变量(例如,时间没有提前,因为有更多的人出生,所以必须相反)。
当然,您仍然不知道因果关系是否直接。推测时间的流逝本身不会自动产生更多的人。相反,历史的发展会导致社会各个方面的进步,这会导致人口规模的增加(甚至这是许多小因果关系的简化)。但是,不管发挥何种精确因素,您肯定知道A(最终)会导致B,而不是相反。
我将其解释为语义而不是数学/统计参数。我也将其视为相当严格的概括。
在布拉德福德希尔标准,经常在流行病学中使用,提供有关因果关系的思考一个良好的框架。无论时间是否是一个因素,没有任何东西可以确切地证明因果关系,而且我怀疑讲师不是在试图做出如此强烈的断言。但是,许多不同的因素都可以用作因果关系的合理论据。
例如,布拉德福德·希尔(Bradford Hill)标准表明,变量之间的关联强度可以提供因果关系的证据,但单凭其不足。同样,与其他已知/所相信事实相一致的关联可能比与流行知识不一致的关联更能暗示因果关系。临时性也是标准之一-原因应先于其影响。关联以及我们对因果关系所作的推论必须具有时间意义。我建议检查其他条件。有些是流行病学特有的,不适用于物理学,但它仍然是一种有用的思维方式。
要点是,虽然没有任何证据可以最终证明因果关系,但您可以基于许多不同的逻辑检验为其建立一个很好的案例。我认为将绝对优先权放在任何一个标准(例如时间)上都是不合适的,但是在证明因果关系合理时,时间性可能是一个重要因素。
这就引出了关于统计的更广泛的观点:通常来说,我们使用统计来论证。我们使用数据和统计工具得出一定的观点。通常,可以使用相同的数据(甚至是相同的工具)来产生冲突点。我们无法在数学本身中找到因果关系的确定证据,但是我们可以将统计工具部署为更广泛论点的一部分。有关更多信息,我建议使用Abelson的“ 统计学”作为“原则性论点”。
为了使这种情况回到原始状态,假设您已经进行了一项实验,研究溶液中某种化学物质的浓度对溶液温度的影响。您怀疑添加更多这种化学物质会导致反应升高温度。随着时间的推移,您会逐渐增加。您可以查看温度随时间变化的情况,并观察到温度升高。所有这些表明,温度随着时间的推移而上升。并不能证明时间本身(或其他任何原因)具有一定的因果关系。但是,它的确为更广泛的争论提供了一些证据,即该化学物质浓度的增加导致反应温度升高。
该句子非常简单,不值得深思(与优先级无关)。
如果变量与时间之间存在确定的相关性(即,我们知道时间的增加伴随着变量的增加,这是给定的),那么我们就知道“因果”的方向:即时间增加,导致要增加的变量。
因为“ nah-uh”的另一种假设,可能是时间只会增加,因为变量先增加”在给定的时间工作方式下根本站不住脚。
这听起来像是一个愚蠢的观察,但对试图证明因果关系的研究设计具有重要意义。医学上的一个重要例子是进行横断面研究和队列研究之间的区别。
例如,一项旨在发现吸烟与癌症之间联系的横断面研究可能会吸引一组人,将其分为吸烟者与非吸烟者,并查看每组中有多少癌症与非癌症。但是,这是不充分的证据,因为吸烟与癌症之间的相关性也可以解释为“患有癌症的人更有可能喜欢吸烟”。
但是,如果您进行队列研究,即以一组吸烟者和一组非吸烟者为对象,并随着时间的推移对其进行跟进,则测量变量“吸烟者的癌症减去非吸烟者的癌症”,并得出阳性结果。该变量与时间的相关性(在合理的假设下,例如开始吸烟的时间是恒定的,并且与时间无关),那么您就知道“时间”是造成癌症差异的原因,因为您不能声称癌症的发病率增加在抽烟组中花费更多时间。因此,您可以声称吸烟时间长和吸烟者组中与更高吸烟率相关的阳性癌症差异之间存在因果关系。(或更简单地说,属于吸烟人群的时间导致患癌的风险成比例增加)。
此外,横断面研究的弱点,即“癌症患者更可能吸烟”的可能性现已消失,因为吸烟已被排除在“时间与癌症”之外方程(此处假定为常数,因此不受时间影响)。换句话说,通过以这种方式进行研究,我们研究了一个非常具体的因果关系。如果我们想研究反向因果关系适用的程度(即随着时间的流逝,最终罹患癌症的人多久会吸烟),那么我们就必须设计一项队列研究“未来癌症与无未来癌症”,并衡量随时间推移吸烟的吸收情况。
更新回应评论:
注意,这是关于因果关系的讨论,而不是寻找直接因果关系的讨论。混淆的问题是一个单独的问题。(即没有任何迹象表明没有一个独立的第三个变量,都让你更有可能是吸烟者,并随时间而增加患癌症的几率)。即,就反事实因果关系而言,我们没有明确表明“如果不是因为吸烟这些人就不会得癌症”。但是我们有表明“如果没有时间,吸烟群体与癌症之间的关联就不会增加”。(即,这种关联不只是癌症患者的快照,仅仅是偏爱是否参加吸烟组,而是随着时间的流逝而加强)。
这实际上是一个关于如何建立因果关系的问题,因为相关但不具有因果关系的事件可能会在时间或空间上相互关联。因此,查看一些相关数据,我们如何确定该关系是否为依存关系?一位明智的研究顾问曾经告诉我,“相关性并不意味着因果关系,它只是告诉您应该去哪里看”。
让我们考虑发现事件A和B在时间或空间上相关的情况。如果我们想调查A导致B的介词,传统的思路是引入必要性和充分性的检验-这就是因果关系的真正含义。
如果没有牛奶会导致我去商店,那并不是说我进入空牛奶中开车。绝对因果关系意味着无论何时我仍然喝牛奶,我都不会去商店购物。相反,无论何时我在商店里,都是因为我没有牛奶。现在可以很容易地看到在严格意义上积极建立因果关系的问题:大多数事情不是绝对因果关系。我还有很多其他原因,可能与牛奶状态无关。
这是从好的文件中分辨出好论文的简单方法。在仔细的研究中,您将在各处看到足够性和必要性测试。声称小分子药物A可能导致蛋白质复合物B的分解。您将立即看到测试:
必要性
----test---- ----result----
everything but B --> [nothing] (check for false positive)
everything but A --> assembled
everything with A-like compound --> assembled (control group)
充足性
A + B alone (in vitro) --> disassembled (check for false negative)
A + B + everything --> disassembled (trial group)
这是您使用相关性通过实验为因果关系建立归纳论证的传统方式,这是我有信心您的讲师为之倾倒的!