许多统计学家的口头禅是“关联并不意味着因果关系”。这确实是正确的,但是在这里确实暗示了一件事,即关联几乎没有价值。这是真的?知道两个变量相关是否有用吗?
我无法想象是这样。我对预测分析并不十分熟悉,但似乎如果X
是的预测因子Y
,则无论因果关系如何,它对于预测Y
基于的未来值都会很有用X
。
我看到相关值不正确吗?如果不是,在什么情况下统计学家或数据科学家可能会使用因果关系而没有因果关系?
许多统计学家的口头禅是“关联并不意味着因果关系”。这确实是正确的,但是在这里确实暗示了一件事,即关联几乎没有价值。这是真的?知道两个变量相关是否有用吗?
我无法想象是这样。我对预测分析并不十分熟悉,但似乎如果X
是的预测因子Y
,则无论因果关系如何,它对于预测Y
基于的未来值都会很有用X
。
我看到相关值不正确吗?如果不是,在什么情况下统计学家或数据科学家可能会使用因果关系而没有因果关系?
Answers:
无论因果关系如何,相关性(或任何其他关联度量)都可用于预测。假设您测量了两个变量之间的清晰,稳定的关联。这意味着知道一个变量的水平还会为您提供有关另一个感兴趣变量的一些信息,您可以使用这些信息来帮助预测一个变量作为另一个变量的函数,最重要的是,根据该预测采取一些措施。采取行动涉及更改一个或多个变量,例如在提出自动推荐或采用某些医疗干预措施时。当然,如果您对两个变量之间的直接或间接关系有更深入的了解,则可以做出更好的预测并更有效地采取行动。这种见解可能涉及其他变量,包括空间和时间变量。
A
是一个很好的预测指标时,很容易断言这也是该疾病的病因-正如评论中所提到的,很容易得出错误的结论。如果我们只想做出预测,例如告诉患者是否患有疾病,则相关性就没有问题。
这里已经有很多优点。让我来说明一下您的主张:“看来,如果X
是的预测因子Y
,则无论因果关系如何,它对于预测Y
基于的未来值都是有用的X
”。您是正确的:如果只希望能够Y
从已知X
值和已知的稳定关系中预测未知值,则该关系的因果状态无关紧要。考虑到:
您是对的,相关性很有用。因果模型优于关联模型的原因是,正如Pearl所说,它们是干预的预言。换句话说,它们使您可以进行假设性推理。因果模型回答了以下问题:“如果我要使X发生,Y会发生什么?”
但是您不必总是假设假设。如果模型仅将被用来回答的问题,如:“如果我观察到X,我知道什么绕Y?”,那么联想模式是所有你需要的。
如果您有一个解释因果关系的基础模型,则关联是一个有用的工具。
例如,如果您知道向对象施加力会影响其运动,则可以测量力与速度以及力与加速度之间的相关性。较强的相关性(与加速度)将单独说明。
在观察性研究中,相关性可以揭示某些共同的模式(如所述的母乳喂养和以后的健康状况),这些可能通过适当的实验设计为进一步的科学探索奠定基础,这些实验设计可以确认或拒绝因果关系(例如,可能不是母乳喂养是其原因)某种文化框架的后果)。
因此,关联可能有用,但很少能得出结论。
如您所述,仅相关性就具有很多效用,主要是预测。
这句话用的原因(或滥用,看到了上面的帖子我的意见),所以往往是因果关系往往是很多更有趣的问题。也就是说,如果我们花了很多精力去研究 和 ,这很可能是因为,在现实世界中,我们很好奇是否可以使用 影响 。
例如,所有这些研究表明,在我看来,老年人中大量使用咖啡与更健康的心血管系统有关,这无疑是人们希望证明其浓咖啡习惯的动机。但是,说喝咖啡只与健康的心灵有关,而不是因果关系,无济于事,不能回答我们真正关心的问题:如果喝更多的咖啡或减少咖啡摄入量,我们会变得更健康吗?找到非常有趣的结果可能会令人沮丧(咖啡与健康的心脏联系在一起!),但无法使用该信息来做出决定(仍然不知道您是否应该喝咖啡来保持健康),因此几乎总是一种将相关性解释为因果关系的诱惑。
除非您关心的只是赌博(即您要预测但不影响)。
关联具有价值,但人们应该查看更多证据以得出因果关系。
多年前,有一项研究导致“咖啡导致癌症”。我在新闻中听到这个消息后,就告诉我的妻子“虚假关联”。原来我是正确的。每天2-3杯咖啡的吸烟率高于非咖啡饮用者。一旦数据收集者弄清楚了这一点,他们便收回了结果。
在住房繁荣和萧条之前的另一项有趣的研究表明,在处理抵押贷款方面存在种族主义。声称黑人申请人的拒绝率高于白人。但是另一项研究着眼于违约率。黑人房主的违约率与白人相同。如果将黑人申请的标准维持在较高水平,则其违约率实际上会低得多。注意:这则轶事由作者Thomas Sowell在他的《房屋繁荣与萧条》一书中分享。
数据挖掘可以轻松地生成两组显示出高度相关性的数据,但是对于不可能相关的事件。最后,最好以非常挑剔的眼光看待发送给您的研究。找到错误的相关性并不总是那么容易,这是一种后天的才能。
相关性是一个可观察到的现象。您可以测量它。您可以对这些测量进行操作。就其本身而言,它可能是有用的。
但是,如果您所拥有的只是一个相关因素,那么您将无法保证所做的更改实际上会产生效果(请参阅将iPhone的兴起与海外奴隶制等联系的著名图表)。它只是表明那里存在相关性,并且如果您通过(调整)调整环境,该相关性可能仍然存在。
但是,这是一种非常微妙的方法。在许多情况下,我们希望使用一种较不精细的工具:因果关系。因果关系是一种关联,并提出一种主张,即如果您通过一种或另一种方式来调整环境,则应该期望这种关联仍然存在。这允许进行更长期的计划,例如将20或50个因果事件连续链接起来以识别有用的结果。进行20或50个相关运算通常会留下非常模糊和模糊的结果。
作为过去如何发挥作用的一个例子,请考虑西方科学与传统中医药(TCM)。西方科学主要关注“发展一种理论,分离出可以证明该理论的测试,进行测试并记录结果”。这始于与因果关系密切相关的“发展理论”。中医从头开始“设计一个可能提供有用结果的测试,运行测试,找出答案中的相关性”。重点更多地放在相关性上。
如今,西方人倾向于倾向于几乎完全用因果关系来思考,因此研究相关性的价值很难被窥探。但是,我们发现它潜伏在我们生活的每个角落。永远不要忘记,即使在西方科学中,关联性也是确定哪些理论值得探索的重要工具!