如果“相关不表示因果关系”，那么，如果我发现具有统计学意义的相关性，我该如何证明因果关系？

30

我知道关联不是因果关系。假设我们得到两个变量之间的高度相关性。您如何检查这种相关性是否真的是因果关系？或者，确切地说，在什么条件下，我们可以使用实验数据来推断两个或多个变量之间的因果关系吗？

correlation mathematical-statistics causality

— 曼尼斯·巴恩沃尔（Manish Barnwal）
source

2

它将需要实验数据。请描述您参考的实验设计。

— Frank Harrell 2014年

1

主席先生，我没有任何实验数据。我想了解需要执行哪种受控实验来推断因果关系？

— Manish Barnwal，2014年

4

有很多可能的设计。简而言之，您尝试物理地控制所有其他变量并改变一个感兴趣的因素，或者将实验操作的应用随机化，从而“平均”所有其他可能的解释的影响。

— Frank Harrell 2014年

2

简而言之，您需要某种外生变异。

— abaumann 2014年

1

在相关性之间X，Y选择一个作为另一个原因，这将使责任感最小化，命运感最大化。

— ttnphns 2014年

16

两个变量相关的一个很可能的原因是它们的变化与第三个变量相关。其他可能的原因是偶然的（如果您测试了足够多的非相关变量进行相关，则某些变量会显示相关性），或者是涉及多个步骤的非常复杂的机制。

有关以下示例，请参见http://tylervigen.com/：

在此处输入图片说明

为了自信地说明A-> B的因果关系，您需要进行一个实验，在该实验中您可以控制变量A并且不影响其他变量。然后，如果更改变量，则可以测量A和B的相关性是否仍然存在。

对于几乎所有实际应用而言，几乎不可能也不影响其他（通常是未知的）变量，因此，我们能做的最好的就是证明不存在因果关系。

为了陈述因果关系，请从两个变量具有因果关系的假设开始，使用实验来证明该假设，如果失败，则可以确定地确定该假设是正确的。确定性需要达到多高取决于您的研究领域。

在许多领域中，通常需要并行运行实验的两个部分，其中一部分要更改变量A，而对照组要不要更改变量A，但是在其他方面实验是完全相同的，例如药物仍然会用针扎住受试者或让他们吞下药丸。如果实验显示了A和B之间的相关性，但没有显示A和B'（对照组的B）之间的相关性，则可以假定因果关系。

如果由于某种原因（道德，道德，公关，成本，时间）而无法进行或不建议进行实验，则还有其他方式可以得出因果关系。一种常见的方法是使用演绎法。从评论中举一个例子：为了证明吸烟会导致人类癌症，我们可以使用实验来证明吸烟会导致小鼠癌症，然后证明吸烟与人类癌症之间存在相关性，并得出结论，这是非常极端的。吸烟可能导致人类癌症-如果我们也证明癌症导致吸烟，则可以进一步证明这一点。得出因果关系的另一种方法是排除相关性的其他原因，而将因果关系作为相关性的最佳剩余解释-这种方法并不总是适用，因为有时候不可能消除所有可能的相关原因（在另一个答案中称为“后门路径”）。在吸烟/癌症的例子中，我们可能可以使用这种方法来证明吸烟是造成肺部焦油的原因，因为没有太多可能的来源。

从科学的角度来看，这些其他“证明”因果关系的方法并不总是理想的，因为它们并不像更简单的实验那样具有决定性。关于全球变暖的辩论是一个很好的例子，它表明，消除因果关系要容易得多，因果关系尚未通过可重复的实验得到最终证实。

为了使漫画轻松，以下是一个实验的示例，该实验在技术上是合理的，但由于非科学原因（道德，道德，公关，费用），因此不建议这样做：

图片取自phroyd.tumblr.com

— 彼得
source

3

这个条件太强了。在流行病学中，要求不那么严格，因为控制实验充其量是不切实际的，而最不道德的则是不道德的-“抽烟会致癌”

— 295691 2014年

2

Pearl提供的示例表明吸烟会导致人类癌症，这是前门方法，焦油被视为吸烟和癌症之间的中间变量。我不知道您所说的“不理想”是什么意思。绝对比强迫人们吸烟并看看他们是否得了癌症更理想！

— 尼尔·G

1

@Neil“绝对比强迫人们抽烟并看看他们是否得了癌症更理想”-如果目标是证明因果关系，我强烈不同意。另一方面，如果目标是避免道德问题，减少资金或私奔，那是比较理想的，是的。

— 彼得

10

无论设计是实验性的还是观察性的，如果A和Y之间没有开放的后门路径，变量A和结果Y之间的关联都会反映A和Y之间的因果关系。

在实验设计中，最容易通过暴露或治疗分配的随机化来实现。除非理想随机化，否则关联治疗效果是在可交换性（治疗分配独立于反事实结果），阳性等假设下对因果治疗效果的无偏估计。

参考文献

埃尔南·罗宾斯。因果推理
 珍珠。统计中的因果推论：概述

PS：您可以在Google上搜索因果推断及以下名称（以开头），以获取有关该主题的更多信息：Judea Pearl，Donald Rubin，Miguel Hernan。

— 灰
source

在此处查看：en.wikipedia.org/wiki/Correlation_does_not_imply_causation我与Ash的说法相反：无论设计是实验性的还是观察性的，变量A与结果Y之间的关联都反映了A和Y之间的因果关系（如果存在） A和Y之间没有开放的后门路径。例如，冰淇淋销售，游泳池中Y死亡；相互关联，但导致温度升高或降低的原因是温度。也许Ash的意思是后门路径都取决于第三个变量，但是他的表述还不清楚。

— 2014年

在您的示例中，后门路径就是季节。后门路径意味着第三个变量。

— 尼尔·G

对于那些不熟悉Judea Pearl对因果关系研究所做的贡献的人，阅读计算机协会网站上的传记可能会有所帮助，该网站授予他2011年图灵奖。珀尔在接受Amstat News采访时讨论了在统计教育课程中包含更多因果推理的必要性。

— jthetzel

评论不作进一步讨论；此对话已转移至聊天。

— gung-恢复莫妮卡

3

考虑离婚率的增加，这与律师收入的增加有关。

直观上看来，这些指标应该相互关联。更多的夫妻（需求）提出更多的离婚申请，因此更多的律师（供应）提高了他们的价格。

离婚率的增加似乎导致律师收入的增加，因为夫妻的额外需求导致律师提高了价格。

或者，是倒退吗？如果律师有意和独立地提高价格，然后将新收入用于离婚广告，该怎么办？这似乎也是一个合理的解释。

此方案说明了统计分析可以显示的任意数量的第三解释性变量。考虑以下：

您无法测量每个数据点，
您要消除每个非解释性数据点，
您只能证明测量数据时为什么要消除数据点。

你有一个难题。您无法测量每个数据点，如果要证明忽略非解释性数据点是合理的，则需要测量它们。（您可以消除一些数据点而不对其进行度量，但是至少需要证明它们的合理性。）

在无限制的系统中，没有任何因果关系的证明是正确的。

— 迈尔斯·理查森（Miles Richardson）
source

2

如果A和B相关联，并且排除了巧合之后，则很可能是A导致B或B导致A，或者某些可能未知的X引起A和B。

第一步将是研究一种可能的机制。您能否想到A会如何发生B，反之亦然，或者是哪种其他原因X可能导致这两种情况？（这是假定这种检查比进行尝试证明原因的实验便宜）。希望您最终能找到一个表明因果关系的实验值得。你可以，如果你不能想到的机制入手（A导致B，而我们不知道为什么是一种可能性）。

在该实验中，您需要能够随意操纵可疑原因（例如，如果原因是“服用A丸”，那么有些人会得到该药，而其他人则不会）。然后，您采取通常的预防措施，随机选择服用或不服用避孕药的人，而您和被测者都不知道谁服用了药丸，谁没有服用。您还应尝试使其余的实验保持相等（将A药丸给一个温暖的房间里的人，阳光透过窗户照进来，而另一组人在一个肮脏，不舒服的房间里得到假药，可能会影响您的数据）。因此，如果您得出结论，唯一的区别是该药，而服用或不服用该药的原因是一个不影响其他因素的随机决定，

— gnasher729
source

2

gnasher和Peter描述的介入性（实验）数据是建立因果关系良好依据的最直接方法。但是，只有Ash的答案提到了通过观测数据推论因果关系的可能性。除了他提到的后门方法之外，前门方法是基于观察数据和一些因果假设建立因果关系的另一种方法。这些是由犹太珍珠发现的。我试图总结和提供这些参考这里。

— 尼尔·G
source

0

要做出因果关系陈述，您需要同时具有随机抽样和随机分配

随机抽样：每个人都有相等的概率被选择参加研究
随机分配：实验中的每个人都表现出一点不同。

因此，从上述抽样组中选择治疗组和对照组时，治疗组和对照组中应有相同数量的具有相似性状的人。

该治疗组是在医学上给予人组。该对照组是在医学上没有给该组。您还可以定义一个安慰剂组，在该组中不给受试者服用药物，而是告知他们正在服用药物。

最后，如果效果在治疗组中可见，而在对照组中不可见，则可以确定因果关系。

— show_stopper
source

我认为，绝对需要安慰剂组。同样，负责处理测试对象的人员也不得知道谁属于哪个组（“双盲”）。我认为绝对不可靠的任何东西。测试并不容易。

— mafu 2014年

随机对照安慰剂试验比随机对照试验更真实，但是可以使用随机对照试验做出因果关系陈述

— show_stopper 2014年

2

“要做出因果关系，您需要同时具有随机抽样和随机分配” —这是不正确的。请参阅前门和后门方法。

— 尼尔·G