我知道关联不是因果关系。假设我们得到两个变量之间的高度相关性。您如何检查这种相关性是否真的是因果关系?或者,确切地说,在什么条件下,我们可以使用实验数据来推断两个或多个变量之间的因果关系吗?
X
,Y
选择一个作为另一个原因,这将使责任感最小化,命运感最大化。
我知道关联不是因果关系。假设我们得到两个变量之间的高度相关性。您如何检查这种相关性是否真的是因果关系?或者,确切地说,在什么条件下,我们可以使用实验数据来推断两个或多个变量之间的因果关系吗?
X
,Y
选择一个作为另一个原因,这将使责任感最小化,命运感最大化。
Answers:
两个变量相关的一个很可能的原因是它们的变化与第三个变量相关。其他可能的原因是偶然的(如果您测试了足够多的非相关变量进行相关,则某些变量会显示相关性),或者是涉及多个步骤的非常复杂的机制。
有关以下示例,请参见http://tylervigen.com/:
为了自信地说明A-> B的因果关系,您需要进行一个实验,在该实验中您可以控制变量A并且不影响其他变量。然后,如果更改变量,则可以测量A和B的相关性是否仍然存在。
对于几乎所有实际应用而言,几乎不可能也不影响其他(通常是未知的)变量,因此,我们能做的最好的就是证明不存在因果关系。
为了陈述因果关系,请从两个变量具有因果关系的假设开始,使用实验来证明该假设,如果失败,则可以确定地确定该假设是正确的。确定性需要达到多高取决于您的研究领域。
在许多领域中,通常需要并行运行实验的两个部分,其中一部分要更改变量A,而对照组要不要更改变量A,但是在其他方面实验是完全相同的,例如药物仍然会用针扎住受试者或让他们吞下药丸。如果实验显示了A和B之间的相关性,但没有显示A和B'(对照组的B)之间的相关性,则可以假定因果关系。
如果由于某种原因(道德,道德,公关,成本,时间)而无法进行或不建议进行实验,则还有其他方式可以得出因果关系。一种常见的方法是使用演绎法。从评论中举一个例子:为了证明吸烟会导致人类癌症,我们可以使用实验来证明吸烟会导致小鼠癌症,然后证明吸烟与人类癌症之间存在相关性,并得出结论,这是非常极端的。吸烟可能导致人类癌症-如果我们也证明癌症导致吸烟,则可以进一步证明这一点。得出因果关系的另一种方法是排除相关性的其他原因,而将因果关系作为相关性的最佳剩余解释-这种方法并不总是适用,因为有时候不可能消除所有可能的相关原因(在另一个答案中称为“后门路径”)。在吸烟/癌症的例子中,我们可能可以使用这种方法来证明吸烟是造成肺部焦油的原因,因为没有太多可能的来源。
从科学的角度来看,这些其他“证明”因果关系的方法并不总是理想的,因为它们并不像更简单的实验那样具有决定性。关于全球变暖的辩论是一个很好的例子,它表明,消除因果关系要容易得多,因果关系尚未通过可重复的实验得到最终证实。
为了使漫画轻松,以下是一个实验的示例,该实验在技术上是合理的,但由于非科学原因(道德,道德,公关,费用),因此不建议这样做:
无论设计是实验性的还是观察性的,如果A和Y之间没有开放的后门路径,变量A和结果Y之间的关联都会反映A和Y之间的因果关系。
在实验设计中,最容易通过暴露或治疗分配的随机化来实现。除非理想随机化,否则关联治疗效果是在可交换性(治疗分配独立于反事实结果),阳性等假设下对因果治疗效果的无偏估计。
PS:您可以在Google上搜索因果推断及以下名称(以开头),以获取有关该主题的更多信息:Judea Pearl,Donald Rubin,Miguel Hernan。
考虑离婚率的增加,这与律师收入的增加有关。
直观上看来,这些指标应该相互关联。更多的夫妻(需求)提出更多的离婚申请,因此更多的律师(供应)提高了他们的价格。
离婚率的增加似乎导致律师收入的增加,因为夫妻的额外需求导致律师提高了价格。
或者,是倒退吗?如果律师有意和独立地提高价格,然后将新收入用于离婚广告,该怎么办?这似乎也是一个合理的解释。
此方案说明了统计分析可以显示的任意数量的第三解释性变量。考虑以下:
你有一个难题。您无法测量每个数据点,如果要证明忽略非解释性数据点是合理的,则需要测量它们。(您可以消除一些数据点而不对其进行度量,但是至少需要证明它们的合理性。)
在无限制的系统中,没有任何因果关系的证明是正确的。
如果A和B相关联,并且排除了巧合之后,则很可能是A导致B或B导致A,或者某些可能未知的X引起A和B。
第一步将是研究一种可能的机制。您能否想到A会如何发生B,反之亦然,或者是哪种其他原因X可能导致这两种情况?(这是假定这种检查比进行尝试证明原因的实验便宜)。希望您最终能找到一个表明因果关系的实验值得。你可以,如果你不能想到的机制入手(A导致B,而我们不知道为什么是一种可能性)。
在该实验中,您需要能够随意操纵可疑原因(例如,如果原因是“服用A丸”,那么有些人会得到该药,而其他人则不会)。然后,您采取通常的预防措施,随机选择服用或不服用避孕药的人,而您和被测者都不知道谁服用了药丸,谁没有服用。您还应尝试使其余的实验保持相等(将A药丸给一个温暖的房间里的人,阳光透过窗户照进来,而另一组人在一个肮脏,不舒服的房间里得到假药,可能会影响您的数据)。因此,如果您得出结论,唯一的区别是该药,而服用或不服用该药的原因是一个不影响其他因素的随机决定,
要做出因果关系陈述,您需要同时具有随机抽样和随机分配
因此,从上述抽样组中选择治疗组和对照组时,治疗组和对照组中应有相同数量的具有相似性状的人。
该治疗组是在医学上给予人组。该对照组是在医学上没有给该组。您还可以定义一个安慰剂组,在该组中不给受试者服用药物,而是告知他们正在服用药物。
最后,如果效果在治疗组中可见,而在对照组中不可见,则可以确定因果关系。