没有因果关系,关联何时可用?


27

许多统计学家的口头禅是“关联并不意味着因果关系”。这确实是正确的,但是在这里确实暗示了一件事,即关联几乎没有价值。这是真的?知道两个变量相关是否有用吗?

我无法想象是这样。我对预测分析并不十分熟悉,但似乎如果X是的预测因子Y,则无论因果关系如何,它对于预测Y基于的未来值都会很有用X

我看到相关值不正确吗?如果不是,在什么情况下统计学家或数据科学家可能会使用因果关系而没有因果关系?


5
在我看来,“因果关系并不意味着相关性”一词经常被滥用,以暗示不应总是信任统计数据(是真实的,但由于缺乏因果关系,并非总是如此)。当我看到人们放弃这一短语以提及为什么预测分析是错误的时,我会感到非常沮丧。例如,facebook.com / notes / mike-develin / debunking-princeton / ...是一个糟糕的分析和一个可怕的分析的可怕拆封的典范。
Cliff AB

10
例如,假设您发现生活在某个城市与早期死亡相关。您无法得出结论,住在那个城市会导致早逝,也无法得出结论,让人们搬出那个城市会帮助他们更长寿。(出于某种原因,也许这座城市对生病的人具有吸引力。)但是,如果您是一名精算师,您完全有理由向该城市的成员收取更高的人寿保险费-了解这种相关性对于您。
Nate Eldredge

2
@NateEldredge在英格兰南部有更多人死亡。那是因为人们在那里退休了。
TRiG 2015年

1
可以说,没有相关性具有更多的意义。
拉斐尔2015年

强制性xkcd参考:xkcd.com/552
vsz

Answers:


32

无论因果关系如何,相关性(或任何其他关联度量)都可用于预测。假设您测量了两个变量之间的清晰,稳定的关联。这意味着知道一个变量的水平还会为您提供有关另一个感兴趣变量的一些信息,您可以使用这些信息来帮助预测一个变量作为另一个变量的函数,最重要的是,根据该预测采取一些措施。采取行动涉及更改一个或多个变量,例如在提出自动推荐或采用某些医疗干预措施时。当然,如果您对两个变量之间的直接或间接关系有更深入的了解,则可以做出更好的预测并更有效地采取行动。这种见解可能涉及其他变量,包括空间和时间变量。


4
相关并不总是对预测有用。在反向因果关系的情况下,有些重要的时间方面不能总是得到控制。我们一直与阿尔茨海默氏病有关。我们不断地撞墙试图辨别:我们在AD患病大脑中发现的生物标志物是导致疾病还是疾病引起
AdamO

1
@AdamO我想我的答案会在最后一两句话中涵盖该基础,因此我不同意您的看法。
垃圾平衡

1
实际上,因果关系问题仅在您试图解释预测模型时才会出现。(当然,这就是我们经常对科学感兴趣的东西)。当我们看到生物标志物A是一个很好的预测指标时,很容易断言这也是该疾病的病因-正如评论中所提到的,很容易得出错误的结论。如果我们只想做出预测,例如告诉患者是否患有疾病,则相关性就没有问题。
cel 2015年

1
这是不正确的,这里仅是一个示例。如果根据您的预测进行操作涉及更改变量并期望目标也发生更改,但是实际上没有直接联系或因果关系相反,那么您将采取错误的措施。在您说“但在该示例中,您正在解释模型”时,我说,“在什么情况下,即使从用于预测的模型中,您也不会得出推论?” 答案:当您对模型所暗示的因果关系不太信任时。
垃圾平衡

1
@BrashEquilibrium:有很多方法可以对预测采取行动,而不涉及以任何方式更改用于获取预测的变量。是否想知道您的商店是否应该储备羊毛手套?了解您最近销售的冰淇淋量(当然,在假设没有更直接的数据来源的情况下)可以很好地预测。
Ilmari Karonen

17

这里已经有很多优点。让我来说明一下您的主张:“看来,如果X是的预测因子Y,则无论因果关系如何,它对于预测Y基于的未来值都是有用的X”。您是正确的:如果只希望能够Y从已知X值和已知的稳定关系中预测未知值,则该关系的因果状态无关紧要。考虑到:

  • 您可以根据原因预测结果。这是直观且无争议的。
  • 您也可以从对效果的了解中预测原因。一些但很少感染肺癌的人从未吸烟。结果,如果您知道某人患有肺癌,则尽管吸烟是因果关系,而癌症却是事实,但您可以很有把握地预测他们是吸烟者。如果院子里的草是湿的,并且洒水器没有运转,那么即使下雨是原因,而湿的草只是效果,您也可以预测已经下雨了。等等。
  • 您也可以根据相同原因的已知影响来预测未知影响。例如,如果Billy和Bobby是同卵双胞胎,而我从未见过Billy,但我知道Bobby是5'10'(178厘米),尽管事实证明Billy也是178厘米,比利的身高既不会导致鲍比的身高,也不会使鲍比的身高导致比利的身高。

7
只是给您的类别起个名字:您的三种预测称为(按顺序)演绎绑架归纳
Neil G

12

他们并没有大肆宣传关联的重要性。只是趋势是将相关性解释为因果关系。

以母乳喂养为例。母亲几乎总是将(观察性研究)有关母乳喂养的发现解释为他们是否应真正母乳喂养的建议。的确,即使在控制了纵向母亲和父亲的年龄,社会经济地位等因素之后,按母乳喂养的婴儿通常也会在年龄上更健康,这并不意味着母乳喂养是造成这种差异的原因。在食欲调节的早期发展中起部分作用。这种关系非常复杂,可以很容易地推测出可能是所观察到的差异背后的众多中介因素。

大量研究都希望协会能够对正在发生的事情有更深入的了解。关联不是没有用的,它仅是因果关系之下的几个步骤,需要注意如何报告发现以防止非专家的误解。


9

您是对的,相关性很有用。因果模型优于关联模型的原因是,正如Pearl所说,它们是干预的预言。换句话说,它们使您可以进行假设性推理。因果模型回答了以下问题:“如果我要使X发生,Y会发生什么?”

但是您不必总是假设假设。如果模型将被用来回答的问题,如:“如果我观察到X,我知道什么绕Y?”,那么联想模式是所有你需要的。


3
甲骨文团队干预将是一个很好的名字。
马尔沃里奥2015年

@Malvolio:大声笑,这是描述因果模型的一种令人难忘的简洁方式。我真的很喜欢那句话。
Neil G

4

您是正确的,相关性对于预测很有用。这对于更好地了解正在研究的系统也很有用。

需要了解因果机制的一种情况是,是否已经操纵了目标分布(例如,某些变量已被“强制”取某些值)。仅基于相关性的模型的性能较差,而使用因果信息的模型的性能则要好得多。


2

如果您有一个解释因果关系的基础模型,则关联是一个有用的工具。

例如,如果您知道向对象施加力会影响其运动,则可以测量力与速度以及力与加速度之间的相关性。较强的相关性(与加速度)将单独说明。

在观察性研究中,相关性可以揭示某些共同的模式(如所述的母乳喂养和以后的健康状况),这些可能通过适当的实验设计为进一步的科学探索奠定基础,这些实验设计可以确认或拒绝因果关系(例如,可能不是母乳喂养是其原因)某种文化框架的后果)。

因此,关联可能有用,但很少能得出结论。


2

如您所述,仅相关性就具有很多效用,主要是预测。

这句话用的原因(或滥用,看到了上面的帖子我的意见),所以往往是因果关系往往是很多更有趣的问题。也就是说,如果我们花了很多精力去研究一种,这很可能是因为,在现实世界中,我们很好奇是否可以使用 一种 影响

例如,所有这些研究表明,在我看来,老年人中大量使用咖啡与更健康的心血管系统有关,这无疑是人们希望证明其浓咖啡习惯的动机。但是,说喝咖啡只与健康的心灵有关,而不是因果关系,无济于事,不能回答我们真正关心的问题:如果喝更多的咖啡或减少咖啡摄入量,我们会变得更健康吗?找到非常有趣的结果可能会令人沮丧(咖啡与健康的心脏联系在一起!),但无法使用该信息来做出决定(仍然不知道您是否应该喝咖啡来保持健康),因此几乎总是一种将相关性解释为因果关系的诱惑。

除非您关心的只是赌博(即您要预测但不影响)。


2

关联具有价值,但人们应该查看更多证据以得出因果关系。

多年前,有一项研究导致“咖啡导致癌症”。我在新闻中听到这个消息后,就告诉我的妻子“虚假关联”。原来我是正确的。每天2-3杯咖啡的吸烟率高于非咖啡饮用者。一旦数据收集者弄清楚了这一点,他们便收回了结果。

在住房繁荣和萧条之前的另一项有趣的研究表明,在处理抵押贷款方面存在种族主义。声称黑人申请人的拒绝率高于白人。但是另一项研究着眼于违约率。黑人房主的违约率与白人相同。如果将黑人申请的标准维持在较高水平,则其违约率实际上会低得多。注意:这则轶事由作者Thomas Sowell在他的《房屋繁荣与萧条》一书中分享。

数据挖掘可以轻松地生成两组显示出高度相关性的数据,但是对于不可能相关的事件。最后,最好以非常挑剔的眼光看待发送给您的研究。找到错误的相关性并不总是那么容易,这是一种后天的才能。


我很喜欢阅读这个答案。不过,似乎要解决这个问题的反面问题:“知道两个变量之间是否相关无用?……在什么情况下统计学家或数据科学家可能会在没有因果关系的情况下使用相关性?”
ub

1
“黑人房主的违约率与白人相同。如果黑人申请的标准更高,那么他们的违约率实际上会低得多。” 正在下结论。正是这个问题。从统计上讲,黑人申请人将不同于白人申请人,如果一组中有更多黑人更可能接受抵押贷款违约,则具有相同违约率的黑人申请人将表示歧视。分离混杂的影响很难。
prosfilaes

正如我所说,这则轶事来自一位著名的黑人学者。而且,我引用的书中只讨论了一段内容。
JTP-向Monica致歉,2015年

1

相关性是一个可观察到的现象。您可以测量它。您可以对这些测量进行操作。就其本身而言,它可能是有用的。

但是,如果您所拥有的只是一个相关因素,那么您将无法保证所做的更改实际上会产生效果(请参阅将iPhone的兴起与海外奴隶制等联系的著名图表)。它只是表明那里存在相关性,并且如果您通过(调整)调整环境,该相关性可能仍然存在。

但是,这是一种非常微妙的方法。在许多情况下,我们希望使用一种较不精细的工具:因果关系。因果关系是一种关联,并提出一种主张,即如果您通过一种或另一种方式来调整环境,则应该期望这种关联仍然存在。这允许进行更长期的计划,例如将20或50个因果事件连续链接起来以识别有用的结果。进行20或50个相关运算通常会留下非常模糊和模糊的结果。

作为过去如何发挥作用的一个例子,请考虑西方科学与传统中医药(TCM)。西方科学主要关注“发展一种理论,分离出可以证明该理论的测试,进行测试并记录结果”。这始于与因果关系密切相关的“发展理论”。中医从头开始“设计一个可能提供有用结果的测试,运行测试,找出答案中的相关性”。重点更多地放在相关性上。

如今,西方人倾向于倾向于几乎完全用因果关系来思考,因此研究相关性的价值很难被窥探。但是,我们发现它潜伏在我们生活的每个角落。永远不要忘记,即使在西方科学中,关联性也是确定哪些理论值得探索的重要工具!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.