什么时候不宜控制变量?


15

我可以想到至少一个幼稚的例子。假设我想研究X和Z之间的关系。我还怀疑Y影响Z,所以我控制Y。但是,事实证明,我不知道X引起Y,Y引起Z。因此,通过控制对于Y,我“了解”了X和Z之间的关系,因为X在给定Y的情况下独立于Z。

现在,在前面的示例中,可能是我应该研究的关系是X和Y以及Y和Z之间的关系。但是,如果我事先知道这些事情,我就不会在第一名。我现在所做的研究表明,X和Z之间没有关系,事实并非如此。...X和Z是相关的。

在下面的依赖关系图中对此进行了说明。在正确的情况下,Z取决于X和Y,并且X和Y是独立的。我们正确地控制了Y以确定X和Z之间的关系。在左情况下,Z取决于依赖于X的Y。X和Z在给定Y的情况下是独立的,因此通过控制是的

variable_relationships

我的问题基本上是“什么时候适合控制变量Y,什么时候不适合?” ...可能很难或不可能完全研究X和Y之间的关系,但是,例如,将Y控制在给定的水平是一个选项。在进行研究之前,我们如何决定?控制太多或太少的常见陷阱是什么?

引文表示赞赏。


7
举一个例子,您的确切情况出现在评估种族歧视的影响上。让成为种族。令Z为工资。让Y成为教育。显然,教育会影响工资,因此您需要对此加以控制,但是,如果种族歧视导致少数族裔接受较差的教育,那么控制教育将掩盖这种歧视。例如。参见尼尔和约翰逊(1996)。正如Alexis的答案所指出的那样,您需要深入了解问题的细节。没有一个简单的按钮可以解决所有问题。XZY
马修·冈恩

1
我不希望按下一个简单的按钮。的确,如果我的问题得到的答案很微不足道,我会感到非常失望。:)
斯科特(Scott)

1
@Repmat是的。但是,很少会满足IV估计的4个假设,即使满足这些假设,所涉及的关联强度也会使IV估计给出有偏差的结果。例如,参见Hernán和Robins 因果估计(在我的回答中完整引用和链接),第16章:工具变量估计。
亚历克西斯

1
@Alexis自然地,很难通过IV来……“没有免费的午餐”,所有的一切,但是当您这样做时,您几乎会毫无疑问地知道这一点。
Repmat '18

1
@Repmat ...有效IV估计的假设需要比图示DAG更多的假设...它们确实很脆弱。
亚历克西斯

Answers:


7

给定第三个变量的某个预测变量时,对(某些条件下)结果的概率进行条件化(即调整)的做法很普遍,但是正如您正确指出的那样,实际上可能会在结果估算中引入偏差,以表示因果效应。甚至可能使用因果混杂因素的“经典”定义来发生这种情况,因为混杂因素本身和关注的预测因素都可能在上游具有更多因果混杂因素。例如,在下面的DAG中,ED的因果作用的经典混杂因素,因为(1)它导致E并因此与E相关,并且(2)由于它与D相关而与D相关。LEDED D关联的 U 2。然而,无论是调节或分层 P d | ë 大号(一个“撞机”)将产生偏压的效果因果估计 Ë d因为大号与混淆 d由未测量的变量 ü 2,和大号被混淆与 E由未测变量 U 1决定U2DP(D|E)LEDLDU2LEU1

DAG

理解,其由珍珠,罗宾斯,和其他变量的条件或分层一个的分析上,以提供一个无偏的因果估计需要使用对于那些不被后门因果效应可辨识-没有常见的原因的标准的可能的DAG的仔细考虑路径描述。没有捷径。学习常见的混淆模式。了解常见的选择偏见模式。实践。

参考文献

格陵兰,S。,珍珠,J。和罗宾斯,JM(1999)。流行病学研究因果图流行病学,10(1):37–48。

马萨诸塞州埃尔南(Hernán)和JM罗宾斯(Robins)(2018)。因果推理。佛罗里达州博卡拉顿的Chapman&Hall / CRC

Maldonado,G.和Greenland,S.(2002)。估计因果效应国际流行病学杂志,31(2):422–438。

Pearl,J.(2000年)。因果关系:模型,推理和推理。剑桥大学出版社。


12

我相信您的问题会很快得到一句话答复,

什么时候适合控制变量Y,什么时候不适合?

是“后门标准”。

茱迪亚·珀尔(Judea Pearl)的结构因果模型可以明确地告诉您哪些变量足以(以及何时需要)进行调节,以推断一个变量对另一个变量的因果影响。即,这是通过后门准则来回答的,这在Pearl 的综述论文的第19页中进行了描述。

主要警告是它要求您了解变量之间的因果关系(以图形中的方向箭头的形式)。没有办法解决。这是困难和可能的主观性可以发挥作用的地方。Pearl的结构因果模型仅允许您知道在给定因果模型(即有向图)的情况下如何回答正确的问题,给定数据分布可能的那组因果模型或如何通过执行正确的实验来寻找因果结构。仅告诉数据分布,它并没有告诉您如何找到正确的因果结构。实际上,它声称如果不使用有关变量含义的外部知识/直觉,这是不可能的。

后门标准可以描述如下:

为了找到的因果影响ÿ 一组可变的节点小号是足以对被调节的,只要其满足以下标准两者:XY,S

1)没有元素是X的后代SX

2)阻止XY之间的所有 “后门”路径SXY

在这里,“后门”路径只是箭头的路径,该路径以开头并以指向X的箭头结尾(所有其他箭头指向的方向并不重要。)“阻塞”本身就是具有特定含义的标准,在上面链接的第11页中给出了该标准。这与学习“ D分离”时所阅读的标准相同。我个人发现,Bishop的模式识别和机器学习的第8章描述了D分离中的阻塞概念,远比我上面链接的Pearl来源更好。但是它是这样的:YX.

一组节点,的块之间的路径Xÿ如果它满足以下标准的至少一个:S,XY

1)一个在路径中的节点,这也是在发射至少路径上的一个箭头(即箭头所指从节点的距离)S,

2)既不是在一个节点也不在一个节点的祖先小号具有在路径“碰撞”向它(即满足它的两个箭头的头-头)SS

这是一个or准则,与一般后门准则and准则不同。

要清楚了解后门准则,它告诉您的是,对于给定的因果模型,当以足够的变量为条件时,您可以从数据的概率分布中了解因果影响。(我们知道,仅联合分布不足以查找因果行为,因为多个因果结构可能导致相同的分布。这就是为什么也需要因果模型的原因。)可以使用普通统计/机器学习方法上的观测数据。所以只要你知道 如果因果结构允许以一个变量(或一组变量)为条件,则您对一个变量对另一个变量的因果影响的估计与通过统计方法获得的数据分布的估计一样好。

将后门条件应用于您的两个图时,我们会发现以下内容:

ZX.YYX,Y

YXZXYYYZ.YY.X.YYYXY

YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

YX.ZX.

ZYXZWBAX. YY B,B,YZYX

ZWBYX. Y ZYXZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

如前所述,使用后门标准要求您了解因果模型(即变量之间箭头的“正确”图)。但是在我看来,结构因果模型还提供了最佳,最正式的方式来搜索这样的模型,或者知道什么时候搜索是徒劳的。它还具有使“混淆”,“调解”和“虚假”(所有这些令我感到困惑)之类的术语过时的奇妙副作用。只要给我看照片,我就会告诉你应该控制哪个圆圈。


3
真好 我正在辩论是否在我的答案的引用部分中添加Pearl的因果关系。...现在已经这样做了。:)
Alexis

0

以下内容可能适合您的情况,也可能不适合您:如果X是一种治疗方法,那么您可能可以通过使用倾向得分匹配来解决问题,其中Y在进行匹配时仍将保留变量。换句话说,您可以平衡Y预测接受治疗的协变量(此类协变量之一)X
请注意Z,上面没有引用结果变量。您还可以检查观测值的平衡程度(通过生成前后匹配的余额表),这可以使您深入了解X所确定的值Y

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.