因果理论为两个变量如何无条件独立而又有条件依赖提供了另一种解释。我不是因果理论方面的专家,并且感谢任何纠正以下错误指导的批评。
为了说明这一点,我将使用有向无环图(DAG)。在这些图中,变量之间的边缘()表示直接因果关系。箭头(或)指示因果关系的方向。因此,推断直接导致,而推断直接由引起。是因果路径,它推断通过间接导致-←→A → B一种乙A ← B一种乙A → B → C一种C乙。为简单起见,假定所有因果关系都是线性的。
首先,考虑一个混杂因素偏见的简单示例:
在这里,简单的双变量回归将暗示和之间的依赖关系。但是,和之间没有直接因果关系。相反,两者都是直接由引起的,并且在简单的双变量回归中,观察导致和之间的依赖关系,从而导致混淆。但是,基于的多变量回归条件将消除偏差,并且表明和之间没有依赖性。XÿXÿžžXÿžXÿ
其次,考虑对撞机偏差(也称为伯克森偏差或伯克森偏差,其中选择偏差是一种特殊类型)的示例:
在这里,简单的双变量回归将表明和之间没有依赖关系。这与DAG一致,DAG推断和之间没有直接因果关系。但是,基于的多变量回归条件将引起和之间的依赖关系,这表明两个变量之间可能存在直接因果关系,而实际上却不存在。多变量回归中包含导致对撞机偏差。XŸ žÿXÿžXÿž
第三,考虑一个偶然取消的例子:
让我们假设,和是路径系数,并且。一个简单的双变量回归将表明和之间没有依赖关系。尽管实际上是的直接原因,但是对和的混杂影响偶然抵消了对。对多元回归条件将消除对和的混杂影响αβγβ= - α γXÿXÿžXÿXÿžžXÿ,假设因果模型的DAG正确,则可以估算对的直接影响。Xÿ
总结一下:
混杂因素示例: 和依赖于混杂变量变量回归和多变量回归条件。Xÿž
对撞机示例: 和在双变量回归中是独立的,并且在对撞机上取决于多变量回归条件。Xÿž
偶发抵消示例: 和在双变量回归中独立,并且在混杂因素上依赖于多变量回归条件。Xÿž
讨论:
您的分析结果与混杂因素示例不兼容,但与对撞机示例和附带取消示例均兼容。因此,一个可能的解释是,你不正确的空调在撞机变量在多变量回归,并诱导之间的关联和即使是不是一个原因和是不是一个原因。或者,您可能已经正确地以多变量回归中的一个混杂因素为条件,这偶然抵消了双变量回归中对的真实影响。XÿXÿÿXXÿ
我发现使用背景知识来构建因果模型,在考虑将哪些变量包括在统计模型中时会有所帮助。例如,如果以前的高质量随机研究得出结论,导致且导致,则我可以强有力地假设是和的碰撞者,而不是在统计模型中对其进行限制。但是,如果我仅凭直觉认为导致,而导致,却没有强有力的科学证据支持我的直觉,那么我只能做出一个微弱的假设,即XžÿžžXÿXžÿžž是和的碰撞体,因为人类的直觉有被误导的历史。随后,我将对推断和之间的因果关系持怀疑态度,而无需进一步研究它们与的因果关系。代替背景知识或除了背景知识之外,还有一些算法设计为使用一系列关联测试从数据推断因果模型(例如PC算法和FCI算法,有关Java实现,请参见TETRAD,PCalgXÿXÿž用于R实施)。这些算法非常有趣,但是如果不对因果关系理论中因果演算和因果模型的功能和局限性有深入的了解,我就不建议依赖它们。
结论:
对因果模型的考虑不能使研究者无法解决此处其他答案中讨论的统计问题。但是,我认为因果模型仍然可以为思考统计模型中观察到的统计依赖性和独立性的潜在解释提供一个有用的框架,尤其是在可视化潜在的混杂因素和对撞机时。
进一步阅读:
吉尔曼,安德鲁。2011。“ 因果关系和统计学习”。上午。J. Sociology 117(3)(11月):955–966。
格陵兰,S,J Pearl和JM Robins。1999.“ 流行病学研究的因果关系图 ” 。《流行病学》(马萨诸塞州剑桥)10(1)(一月):37-48。
格陵兰,桑德。2003。“ 量化因果模型中的偏见:经典混淆与对撞机-分层偏见。”流行病学14(3)(5月1日):300–306。
珍珠,犹太。1998年。为什么没有关于混淆的统计检验,为什么许多人认为存在混淆,以及为什么他们几乎是正确的。
珍珠,犹太。2009. 因果关系:模型,推理和推理。第二版。剑桥大学出版社。
Spirtes,Peter,Clark Glymour和Richard Scheines。2001。因果关系,预测和搜索,第二版。一本布拉德福德书。
更新: Judea Pearl在2012年11月版的《 Amstat新闻》中讨论了因果推理的理论以及将因果推理纳入入门级统计课程的必要性。他的图灵奖演讲题目为“因果推理的机械化:'迷你'图灵测试及以后”,也很有趣。