Answers:
两个随机变量之间因果关系的数学定义是什么?
在数学上,因果模型由变量之间的函数关系组成。例如,考虑以下结构方程组:
这意味着功能上确定的值(如果您对进行干预,则会更改的值),但反之则不然。在图形上,这通常由表示,这意味着进入y的结构方程。作为附录,您还可以根据反事实变量的联合分布来表达因果模型,该模型在数学上等同于功能模型。
给定一个来自两个随机变量X和Y的联合分布的样本,我们什么时候可以说X导致Y?
有时(或大部分的时间),你不必对结构方程的形状知识,,甚至也不是是否或。您拥有的唯一信息是联合概率分布(或该分布中的样本)。
这就引出了您的问题:我何时才能仅从数据中恢复因果关系的方向?或者,更准确地说,什么时候仅从数据中恢复是否进入的结构方程,反之亦然?
当然,如果没有因果模型的任何根本无法检验的假设,这是不可能的。问题在于,几种不同的因果模型可能导致观察变量的联合概率分布相同。最常见的示例是具有高斯噪声的因果线性系统。
但是,在某些因果关系的假设下,这可能是可能的-这就是因果关系发现文献所做的工作。如果您以前没有接触过此主题,则可能要从Peters,Janzing和Scholkopf撰写的《因果推论元素》以及Judea Pearl的《因果关系》第二章开始。我们在CV上有一个主题,可以查找因果发现的参考资料,但是我们这里没有列出很多参考资料。
因此,您的问题不仅有一个答案,因为它取决于一个人所做的假设。您提到的论文引用了一些示例,例如假设具有非高斯噪声的线性模型。这种情况称为LINGAN(线性非高斯非循环模型的缩写),这里是一个示例R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
请注意,这里有一个具有非高斯噪声的线性因果模型,其中导致而林加姆正确地恢复了因果关系的方向。但是,请注意,这主要取决于 LINGAM的假设。
对于您引用的论文,他们做出了这一特定假设(请参见其“假设”):
如果,则将X映射到Y的机制的最小描述长度与X的值无关,而将Y映射到X的机制的最小描述长度取决于Y的值。
请注意,这是一个假设。这就是我们所说的“识别条件”。本质上,该假设对联合分布施加了限制。也就是说,假设说如果数据中存在某些限制,而其他限制。这些类型的约束具有可检验的含义(对施加约束)是使人们能够从观测数据中定向恢复的原因。
最后,因果发现的结果仍然非常有限,并且取决于强大的假设,在现实世界中应用这些假设时要小心。
lm
)。我们不能都围绕图宾根数据集的观测样本进行研究,以了解因果关系发现!:)
有多种方法可以使因果关系形式化(这与已经存在了数百年的关于因果关系的重大哲学分歧保持一致)。流行的是潜在的结果。潜在结果方法称为鲁宾因果模型,它假设对于每种因果情况,都有一个不同的随机变量。因此,如果受试者服用研究药物,并可能是可能的结果,从临床试验的随机变量,如果他采取安慰剂可能是随机变量。因果效应是和。如果实际上是,可以说这种治疗没有效果。否则,我们可以说治疗条件导致了结局。
变量之间的因果关系也可以用方向性的酰基图表示,它们的风格截然不同,但在数学上等同于鲁宾模型(Wasserman,2004,第17.8节)。
Wasserman,L.(2004年)。所有统计:统计推断的简要课程。纽约,纽约:施普林格。ISBN 978-0-387-40272-7。
There are two ways to determine whether is the cause of . The first is standard while the second is my own claim.
An intervention is a surgical change to a variable that does not affect variables it depends on. Interventions have been formalized rigorously in structural equations and causal graphical models, but as far as I know, there is no definition which is independent of a particular model class.
To make this rigorous requires formalizing a model over and , and in particular the semantics which define how it is simulated.
In modern approaches to causation, intervention is taken as the primitive object which defines causal relationships (definition 1). In my opinion, however, intervention is a reflection of, and necessarily consistent with simulation dynamics.