了解因果贝叶斯网络中的d分离理论


15

我试图了解因果贝叶斯网络中的d-分离逻辑。我知道算法的工作原理,但我不完全理解为什么 “信息流”如算法中所述工作。

在此处输入图片说明

例如,在上图中,让我们以为我们只有X,没有观察到其他变量。然后根据d分离的规则,信息从X流向D:

  1. X影响A,这是P一种P一种|X。可以,因为A导致X,并且如果我们知道X的影响,那么这会影响我们对原因A的信念。信息流。

  2. X影响B,即PP|X。这是可以的,因为由于我们对X的了解而改变了A,所以A处的更改也会影响我们对其原因B的信念。

  3. X影响C,即。之所以可以,是因为我们知道B受其间接效应X的偏见,并且由于B受X的偏见,这将影响B的所有直接和间接影响。C是B的直接效应,它受我们对X的了解的影响。PCPC|X

好了,到目前为止,对我来说一切都很好,因为信息流是根据直观的因果关系发生的。但是在这种方案中,我没有得到所谓的“ V型结构”或“对撞机”的特殊行为。根据d-分离理论,B和D是上图中C的常见原因,它表示,如果我们未观察到C或其任何后代,则来自X的流量信息将在C处阻塞。 ,但是我的问题是为什么?

从上面的三个步骤开始,从X开始,我们看到C受关于X的知识的影响,并且信息流根据因果关系发生。d-分离理论说,由于没有观察到C,所以我们不能从C转到D。但是我认为,既然我们知道C是有偏见的,而D是C的原因,那么D也应该受到影响,而理论却相反。我显然在思维模式中缺少某些东西,但看不到它是什么。

因此,我需要一个解释,说明如果没有观察到C,为什么信息流会阻塞在C处。


如果仅观察到X,它就不会从X流向D。您在图片下方声明它。(尽管您在下面进一步描述了它)。
ziggystar 2013年

我已经知道这一点,信息流被阻塞在C处,那里有一个“ V型结构”。我想知道的是为什么;从因果关系的角度来看,为什么当我们不观察C时,V型结构会阻止信息流。
Ufuk Can Bicici

Answers:


6

您不能从原因到无法观察的结果再到另一个原因是不直观的吗?如果雨水(B)和洒水喷头(D)是造成地面潮湿(C)的原因,那么您能辩称看到下雨意味着地面可能是潮湿的,并继续推理出洒水喷头必须在地面上湿吗?当然不是。您争辩说由于下雨,地面是湿的-您无法寻找其他原因!

如果您观察潮湿的地面,情况当然会发生变化。现在,您可以根据弗兰克的解释从一个原因到另一个原因进行推理。


4

让我们暂时忽略X,仅考虑B,C和D的对撞机。v结构会阻塞B和D之间的路径的原因通常是,如果您有两个独立的随机变量(B和D)影响相同的结果(C),那么知道结果可以使您得出有关随机变量之间关系的结论,从而允许信息流动。

P|dPPd|Pd)。因此,知道草坪是湿的可以畅通无阻,并使B和D依赖。

为了更好地理解这一点,看一下描述相同情况的伯克森悖论可能会很有用。


1)在定义有关D-Separation的任何内容之前,我很难理解原因是什么。许多作者通过使用直观的因果关系来定义D分离。我尝试根据我从不同来源阅读的内容以及我的直觉来构建推理系统,以便我能接受该定理。类似于以下内容:“如果没有观察到除X以外的其他变量,则关于X的知识会影响X的影响(所有后代),X的直接或间接原因(祖先)以及X的原因的所有其他影响。”
Ufuk Can Bicici

2)我这样证明这个想法是正确的:A)X可以影响其直接和间接影响,显然,因为不同的X值会产生不同的原因。B)X可以影响其直接和间接原因,因为如果我们观察到某种影响,就可以通过诊断方法获得有关原因的新信息。C)X影响了其所有直接和间接原因的其他影响(不包括自身),因为对X的了解改变了我们对这些原因的看法,进而影响了所有影响。我试图用这种模式解释这种因果贝叶斯网络。首先是正确的吗?
Ufuk Can Bicici

3)就像我试图形成一个直观的“信息流”模式来理解变量的独立依赖性行为。使用这种模式,我看不到什么是独立的原因,这就是我被困住的地方。显然,我错过了一些事情,或者我可能完全不喜欢这种思维方式。
Ufuk Can Bicici

我认为我的原始答案有些误导,因为我将B和D称为“原因”(现已修正)。信息流是与观察相关的概念,而不是因果干预。如您所知,如果观察一个随机变量不会提供有关第二个随机变量的信息,则两个随机变量是独立的。您的陈述似乎混淆了观察和推论。X的观察使我们能够调整其父项的推断(陈述A)及其直接原因,但是如果v结构阻塞了路径,则由于上述原因,我们无法针对间接原因来调整推断。
FrankD

1

好了,到目前为止,一切都对我来说还可以,因为信息流是根据直观的因果关系发生的。但是在这种方案中,我没有得到所谓的“ V型结构”或“对撞机”的特殊行为。

然后,这里要破解的最难的螺母就是v型结构。我想用一个虚拟的例子来说明一个变量S概率仅取决于对效果的观察,而另一个变量D的观察影响在相同情况下与S无关

假设有人在学习课程,例如线性代数。他能否通过,主要取决于考试的难度。让我们表示通过P传递课程的事件,否则以1和0传递;考试的难度为D,难度为1,难度为0。胡说八道也可能影响他的成绩或成绩,比如说发生了奇异现象,他会被机器洗脑,然后决定不参加考试。我们用S表示事件,其概率为0.0001。这似乎是不可能的,但根据定义,它的机会不应为零。

因此,我们现在有了一个v结构形式的图形:

 D   S
  | |
 \| |/ 
   P  

P¬P|小号=0.999999PP|小号=0.000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P小号|PP小号|Pd

1)如果我们不知道结果,我们可以计算出在过程简单的情况下发生奇点的概率。

P小号|¬d=P小号P|¬d+P小号¬P|¬d=P小号=1个P=1个d=0Pd=0+P小号=1个P=0d=0Pd=0=P小号=1个Pd=0|小号=1个PP=1个|d=0小号=1个Pd=0+P小号=1个Pd=0|小号=1个PP=0|d=0小号=1个Pd=0=P小号=1个Pd=0|小号=1个Pd=0=P小号=1个Pd=0Pd=0=P小号=1个=0.0001

如您所见,考试是否通过并不重要。应有的结果。可以看作是对P的边际概率。

而且,如果学生未通过考试,我们也可以算出发生奇点的可能性:

P小号|¬P=P小号¬PP¬P=P小号¬pd+P小号¬P¬dP¬P=P¬P|小号dP小号Pd+P¬P|小号¬dP小号P¬d小号dP¬P|小号dP小号Pd=0.0001818

知道这个人没有通过考试,我们可以猜测他可能被机器洗脑了0.0001818,这比我们不知道的时候大一点。

P小号|¬P¬d=P小号=1个P=0d=0PP=0d=0=PP=0|小号=1个d=0P小号=1个Pd=0PP=0|小号=1个d=0P小号=1个Pd=0+PP=0|小号=0d=0P小号=0Pd=0=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

瞧,变化比我们只知道他不会考试要大得多。然后我们看到P小号|PP小号|Pd 我们可以推断出 小号d|P一世PP小号d 这意味着D可以通过P影响S。

希望这个详细的推导是正确的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.