如果没有遗漏变量,是否存在回归因果关系?


13

如果省略了同时影响和变量,则在上的回归不必是因果的。但是,如果不是因为遗漏变量和测量误差,是否存在回归因果关系?也就是说,回归中是否包括所有可能的变量?yxxy


4
不,即使您包括了世界上的每个变量,也可能是因果关系的逆因。例如,地球上接近其最近的恒星可以准确地行星的表面温度预测,但很明显的因果关系走另一条路
gazza89

@ gazza89-由于这样可以有效回答问题,因此您可能希望将其扩展为答案。
jbowman

3
什么是“遗漏变量”?假设我的数据集中有一个Y和4个X。我拟合了包括所有4个X的模型。那我有没有省略的变量?
user158565 '18

Answers:


20

不,不是,我将向您展示一些反例。

首先是反向因果关系。考虑因果模型为,其中和是标准高斯随机变量。然后,由于不引起,但将取决于。YXXYE[Y|do(x)]=0XYE[Y|x]X

第二个示例是对撞机进行控制(请参阅此处)。考虑因果模型,即不会导致而是常见原因。但是请注意,如果运行包含的回归,则的回归系数将不会为零,因为基于共同原因的条件会导致和之间的关联(您可能还想在此处查看存在的路径分析)。条件对撞机)。XZYXYZZXYX

更一般而言,如果回归中包含的变量满足后门准则,则上的回归将是因果关系YX


3
强烈推荐Judea Pearl撰写的《为什么》。彻底解释卡洛斯的意思。
Markos Kashiouris

3
这是什么是什么意思?do(x)
naught101 '18

5
@ naught101它意味着你实际上是迫使X = X,相比于被动地观测X = X,看到这里stats.stackexchange.com/questions/211008/dox-operator-meaning/...
卡洛斯的Cinelli

谢谢,但是在表达方式上我不清楚。请问平均导致和?箭头应该反向吗?Z X YXZYZXY
Esha

@Esha这意味着和都会导致Ÿ žxyz
Carlos Cinelli

6

除了卡洛斯·辛纳利(Carlos Cinelli)对这个问题的重要回答外,还有更多的原因表明回归系数可能不是因果关系。

首先,模型规格不正确会导致参数无因果关系。仅仅因为模型中具有所有相关变量,并不意味着您已经以正确的方式对其进行了调整。作为一个非常简单的示例,请考虑一个变量,它在0周围对称分布。假设您的结果变量受影响的方式是。回归上(相对于上然后)将会给的估计系数为的约0,显然偏压,尽管你具有调节的所有影响(唯一的)变量。XYXE(YX)=X2YXX2XY

其次,与反向因果关系主题有关,还存在选择偏倚的风险,即选择样本的方式不能代表您希望推断的总体。此外,如果数据不是随机完全丢失,则丢失数据也会带来偏差。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.