统计模型可以说明因果关系吗?从统计模型进行因果推断时应考虑哪些因素?
首先要弄清楚的是,您不能从纯粹的统计模型中进行因果推断。没有因果关系的假设,任何统计模型都无法说出因果关系。也就是说,要进行因果推断,您需要一个因果模型。
ZXY
P(Y|do(X))=P(Y|X)XY
X
这会变得更加复杂。您可能会遇到测量误差问题,受试者可能会放弃研究或不遵循说明等问题。您将需要假设这些事物与推理之间的关系。如果使用“纯”观测数据,则可能会出现更多问题,因为通常研究人员对数据生成过程不会有很好的了解。
因此,要从模型中得出因果推论,您不仅需要判断其统计假设,而且最重要的是要判断其因果假设。以下是因果分析的一些常见威胁:
- 数据不完整/不准确
- 目标因果关系数量未明确定义(您要确定的因果效应是什么?目标人群是什么?)
- 混杂(不可观察的混杂因素)
- 选择偏差(自我选择,截断的样本)
- 测量误差(不仅会引起噪声,还会引起混淆)
- 规格不正确(例如,错误的功能形式)
- 外部有效性问题(对目标人群的错误推断)
有时可以通过研究本身的设计来支持不存在这些问题的主张(或解决了这些问题的主张)。这就是为什么实验数据通常更可信的原因。但是,有时人们会从理论上或为方便起见来解决这些问题。如果理论是软性的(像社会科学一样),将很难从表面上得出结论。
每当您认为有一个无法备份的假设时,您都应该评估结论对这些假设的合理违反有多敏感,这通常称为敏感性分析。