统计和因果推论?


51

保罗·霍兰德(Paul Holland)在1984年发表的论文《统计与因果推论》中提出了统计学中最基本的问题之一:

统计模型可以说明因果关系吗?

这导致了他的座右铭:

没有操纵就没有因果关系

强调了对考虑因果关系的实验进行限制的重要性。安德鲁·盖尔曼(Andrew Gelman)提出了类似的观点

“要发现当您更改某些内容时会发生什么,必须对其进行更改。” ...您从扰动系统中学到的东西是您从任何数量的被动观察中都无法发现的。

本文总结了他的想法。

从统计模型进行因果推断时应考虑哪些因素?


2
伟大的问题:另见相关和因果关系此相关的问题stats.stackexchange.com/questions/534/...
杰罗米Anglim


5
要多说。但是您可以阅读Pearl的著作《 Causality》(2002年,但是第二版),或Hernan and Robins的著作《 Causal Inference》(2015年,如果需要的话,可以在线免费获得电子稿)。

Answers:


28

这是一个广泛的问题,但是考虑到Box,Hunter和Hunter的报价是正确的,我认为这可以归结为

  1. 实验设计的质量:

    • 随机化,样本量,混杂因素的控制...
  2. 实施设计的质量:

    • 遵守协议,测量错误,数据处理...
  3. 模型的质量能够准确反映设计:

    • 准确地表示出块状结构,适当的自由度与效果相关,估计量无偏见,...

冒着明显的风险,我将尽力探讨每个关键点:

  1. 是统计的一个很大的子领域,但从最基本的形式来说,我认为可以归结为这样一个事实,即在进行因果推理时,理想情况下,我们应该从在相同环境中监控的相同单位开始,而不是分配给某个处理。逻辑上归因于治疗后各组之间的任何系统性差异都可以归因于治疗(我们可以推断出原因)。但是,世界并不是很好,治疗前的单位有所不同,实验过程中的环境控制得不好。因此,我们“控制我们可以做到的事情,随机化我们不能做到的事情”,这有助于确保不会由于我们控制或随机化的混杂因素而产生系统性偏见。一个问题是实验趋于困难(至不可能)并且昂贵,并且已经开发出各种各样的设计以在给定成本的情况下在尽可能仔细地控制的设置下有效地提取尽可能多的信息。其中一些非常严格(例如在医学上为双盲,随机,安慰剂对照试验),而另一些则不太严格(例如各种形式的“准实验”)。

  2. 这也是一个大问题,统计学家通常不会考虑……尽管我们应该这样做。在应用统计工作中,我可以回想起在数据中发现的“影响”是数据收集或处理不一致的虚假结果的情况。我还想知道,由于这些问题,有关利益真正因果关系的信息丢失的频率有多大(我相信应用科学专业的学生通常对数据损坏的方式几乎没有接受过培训,但是我在这里不做任何话题...)

  3. 是另一个大的技术主题,也是客观因果推理的另一个必要步骤。在一定程度上可以解决这个问题,因为设计人群共同开发了设计和模型(由于目标是模型的推论,因此估算器的属性会驱动设计)。但这只能使我们走得很远,因为在“现实世界”中,我们最终要分析非教科书设计中的实验数据,然后我们必须认真思考诸如适当的控件之类的东西,以及它们应如何进入模型以及与之相关的关联程度。应该是自由的,是否应该满足假设,如果没有调整的话,如何调整违规行为,以及估算器对于任何剩余违规行为的稳健性,以及...

无论如何,希望上面的某些内容有助于思考从模型进行因果推断的注意事项。我忘了什么大事吗?


3
对于第二点来说,这是一个巨大的优势。除了接受人类对象保护培训以外,我还从未接受过有关数据收集和存储方面最细微的培训。正确进行数据收集比分析重要得多。
马特·帕克

我也很想回答,但恐怕没有什么可以补充金斯福德所说的内容了。
Joris Meys

7

除了上述出色的答案外,还有一种统计方法可以使您更接近证明因果关系。格兰杰因果关系证明了一个因变量在因变量之前发生是否具有因果作用。我在以下链接的易于理解的演示中介绍了此方法:

http://www.slideshare.net/gaetanlion/granger-causality-presentation

我还将这种方法用于测试竞争的宏观经济理论:http : //www.slideshare.net/gaetanlion/economic-theory-testing-presentation

请注意,此方法并不完美。它只是确认某些事件先于其他事件发生,并且这些事件似乎具有一致的方向关系。这似乎需要真正的因果关系,但并非总是如此。公鸡早上叫不会引起太阳升起。


4

统计模型可以说明因果关系吗?从统计模型进行因果推断时应考虑哪些因素?

首先要弄清楚的是,您不能从纯粹的统计模型中进行因果推断。没有因果关系的假设,任何统计模型都无法说出因果关系。也就是说,要进行因果推断,您需要一个因果模型

ZXY

在此处输入图片说明

P(Y|do(X))=P(Y|X)XY

在此处输入图片说明

X

这会变得更加复杂。您可能会遇到测量误差问题,受试者可能会放弃研究或不遵循说明等问题。您将需要假设这些事物与推理之间的关系。如果使用“纯”观测数据,则可能会出现更多问题,因为通常研究人员对数据生成过程不会有很好的了解。

因此,要从模型中得出因果推论,您不仅需要判断其统计假设,而且最重要的是要判断其因果假设。以下是因果分析的一些常见威胁:

  • 数据不完整/不准确
  • 目标因果关系数量未明确定义(您要确定的因果效应是什么?目标人群是什么?)
  • 混杂(不可观察的混杂因素)
  • 选择偏差(自我选择,截断的样本)
  • 测量误差(不仅会引起噪声,还会引起混淆)
  • 规格不正确(例如,错误的功能形式)
  • 外部有效性问题(对目标人群的错误推断)

有时可以通过研究本身的设计来支持不存在这些问题的主张(或解决了这些问题的主张)。这就是为什么实验数据通常更可信的原因。但是,有时人们会从理论上或为方便起见来解决这些问题。如果理论是软性的(像社会科学一样),将很难从表面上得出结论。

每当您认为有一个无法备份的假设时,您都应该评估结论对这些假设的合理违反有多敏感,这通常称为敏感性分析。


用来自另一个节点的两个单向实心箭头替换虚线的双向箭头是否等效?
泰勒

@Taylor是的,一个潜在的(未观察到的)附加节点。
卡洛斯·辛纳利
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.