因果关系如何在数学上定义?


16

两个随机变量之间因果关系的数学定义是什么?

给定一个来自两个随机变量XY的联合分布的样本,我们什么时候可以说X导致?Y

作为背景,我正在阅读有关因果发现的本文


2
据我所知,因果关系是一个科学而非数学的概念。您可以编辑澄清吗?
mdewey

2
@mdewey我不同意。因果关系可以完全形式化地兑现。参见例如我的答案。
Kodiologist '18

Answers:


9

两个随机变量之间因果关系的数学定义是什么?

在数学上,因果模型由变量之间的函数关系组成。例如,考虑以下结构方程组:

x=fx(ϵx)y=fy(x,ϵy)

这意味着x功能上确定y的值(如果您对x进行干预,则会更改y的值),但反之则不然。在图形上,这通常由xy表示,这意味着x进入y的结构方程。作为附录,您还可以根据反事实变量的联合分布来表达因果模型,该模型在数学上等同于功能模型

给定一个来自两个随机变量X和Y的联合分布的样本,我们什么时候可以说X导致Y?

有时(或大部分的时间),你不必对结构方程的形状知识fxfy,甚至也不是是否xyyx。您拥有的唯一信息是联合概率分布p(y,x)(或该分布中的样本)。

这就引出了您的问题:我何时才能仅从数据中恢复因果关系的方向?或者,更准确地说,什么时候仅从数据中恢复x是否进入y的结构方程,反之亦然?

当然,如果没有因果模型的任何根本无法检验的假设这是不可能的。问题在于,几种不同的因果模型可能导致观察变量的联合概率分布相同。最常见的示例是具有高斯噪声的因果线性系统。

但是,在某些因果关系的假设下,这可能是可能的-这就是因果关系发现文献所做的工作。如果您以前没有接触过此主题,则可能要从Peters,Janzing和Scholkopf撰写的《因果推论元素》以及Judea Pearl的《因果关系》第二章开始。我们在CV上一个主题,可以查找因果发现的参考资料,但是我们这里没有列出很多参考资料。

因此,您的问题不仅有一个答案,因为它取决于一个人所做的假设。您提到的论文引用了一些示例,例如假设具有非高斯噪声的线性模型。这种情况称为LINGAN(线性非高斯非循环模型的缩写),这里是一个示例R

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .     

请注意,这里有一个具有非高斯噪声的线性因果模型,其中x2导致x1而林加姆正确地恢复了因果关系的方向。但是,请注意,这主要取决于 LINGAM的假设。

对于您引用的论文,他们做出了这一特定假设(请参见其“假设”):

如果xy,则将X映射到Y的机制的最小描述长度与X的值无关,而将Y映射到X的机制的最小描述长度取决于Y的值。

请注意,这是一个假设。这就是我们所说的“识别条件”。本质上,该假设对联合分布p(x,y)施加了限制。也就是说,假设说如果xy数据中存在某些限制,而yx其他限制。这些类型的约束具有可检验的含义(对p(y,x)施加约束)是使人们能够从观测数据中定向恢复的原因。

最后,因果发现的结果仍然非常有限,并且取决于强大的假设,在现实世界中应用这些假设时要小心。


1
您是否有机会扩大答案,以某种方式包括一些带有伪造数据的简单示例?例如,阅读了一些因果推理元素并查看了Peters的一些讲课,然后通常使用回归框架来激发对详细问题的理解的需要(我什至没有涉及他们的ICP工作)。我的印象(可能是错误的)是,在您远离RCM的努力中,您的答案遗漏了所有实际的有形建模工具。
usεr11852说恢复单胞菌

1
@usεr11852我不确定我是否理解您所提问题的内容,您是否想要示例因果关系发现?Jane提供的论文中有几个示例。另外,我不确定我是否理解“避免使用RCM并省略实际的有形建模工具”是什么意思,在此因果发现上下文中,我们缺少哪些有形工具?
卡洛斯·辛纳利

1
对此感到抱歉,我不在乎论文中的示例。我自己也可以引用其他论文。(例如,Lopez-Paz等人的CVPR 2017关于其神经因果系数)。我关心的是一个简单的数值示例,其中包含有人使用R(或您喜欢的语言)运行的假数据,并了解您的意思。如果您举例如Peters等人的著作。本书,并且有一些小的代码片段,这些片段非常有帮助(有时仅使用lm)。我们不能都围绕图宾根数据集的观测样本进行研究,以了解因果关系发现!:)
usεr11852恢复单胞菌说,

1
@usεr11852可以肯定,包括一个虚假的例子是微不足道的,我可以在R中使用lingam来包含它。但是,您是否愿意解释“避免RCM并省略实际的有形建模机制”的含义?
卡洛斯·辛纳利

2
@usεr11852好的,感谢您的反馈,我将尝试在适当的时候添加更多代码。最后,因果发现结果仍然非常有限,因此人们在根据上下文应用这些结果时需要非常小心。
卡洛斯·辛纳利

4

有多种方法可以使因果关系形式化(这与已经存在了数百年的关于因果关系的重大哲学分歧保持一致)。流行的是潜在的结果。潜在结果方法称为鲁宾因果模型,它假设对于每种因果情况,都有一个不同的随机变量。因此,Y1如果受试者服用研究药物,并可能是可能的结果,从临床试验的随机变量Y2,如果他采取安慰剂可能是随机变量。因果效应是Y1Y2。如果实际上是Y1=Y2,可以说这种治疗没有效果。否则,我们可以说治疗条件导致了结局。

变量之间的因果关系也可以用方向性的酰基图表示,它们的风格截然不同,但在数学上等同于鲁宾模型(Wasserman,2004,第17.8节)。

Wasserman,L.(2004年)。所有统计:统计推断的简要课程。纽约,纽约:施普林格。ISBN 978-0-387-40272-7。


谢谢。给定一组联合分配的样本,对它的检验是什么?

3
I am reading arxiv.org/abs/1804.04622. I haven't read its references. I am trying to understand what one means by causality based on observational data.
Jane

1
I'm sorry (-1), this is not what is being asked, you don't observe Y1 nor Y2, you observe a sample of factual variables X, Y. See the paper Jane has linked.
Carlos Cinelli

2
@Vimal:I understand the case where we have "interventional distributions". We don't have "interventional distributions" in this setting and that is what makes it harder to understand. In the motivating example in the paper they give something like (x,y=x3+ϵ). The conditional distribution of y given x is essentially the distribution of the noise ϵ plus some translation, while that doesn't hold for the conditional distribution of x given y. I initiatively understand the example. I am trying to understand what is the general definition for observational discovery of causality.
Jane

2
@Jane for observational case (for your question), in general you cannot infer direction of causality purely mathematically, at least for the two variable case. For more variables, under additional (untestable) assumptions you could make a claim, but the conclusion can still be questioned. This discussion is very long in comments. :)
Vimal

0

There are two ways to determine whether X is the cause of Y. The first is standard while the second is my own claim.

  1. There exists an intervention on X such that the value of Y is changed

An intervention is a surgical change to a variable that does not affect variables it depends on. Interventions have been formalized rigorously in structural equations and causal graphical models, but as far as I know, there is no definition which is independent of a particular model class.

  1. The simulation of Y requires the simulation of X

To make this rigorous requires formalizing a model over X and Y, and in particular the semantics which define how it is simulated.

In modern approaches to causation, intervention is taken as the primitive object which defines causal relationships (definition 1). In my opinion, however, intervention is a reflection of, and necessarily consistent with simulation dynamics.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.