教学示例:相关并不意味着因果关系


74

有句老话:“关联不等于因果关系”。在教书时,我倾向于使用以下标准示例来说明这一点:

  1. 丹麦的鹳数量和出生率;
  2. 美国牧师的人数和酗酒;
  3. 在20世纪初,人们注意到“收音机数量”与“疯人院的人数”之间有很强的相关性。
  4. 我最喜欢的是:海盗导致全球变暖

但是,我没有这些示例的任何参考,虽然很有趣,但它们显然是错误的。

有人还有其他好的例子吗?


2
翻阅Freakonomics中的一些很好的例子。他们的参考书目充斥着参考文献。
斯蒂芬·特纳


5
阴谋论者显然已经知道了海盗/全球变暖的图表-任何人都可以看到他们故意在不相等的时间间隔内绘制均匀的间隔,以避免由于海盗几乎被全部消灭而显示出近期温度的急剧上升。我们都知道,随着温度的升高,朗姆酒将蒸发,海盗将无法生存。;-)
AdamV

4
WTF在该海盗图上的x轴向上?
naught101 2012年

1
或您在Google Correlate中放入的几乎所有内容都可以实现。
共轭木

Answers:


39

可能有用的解释是,“原因”是一个不对称关系(X导致Y与Y导致X不同),而“与...相关”是一个对称关系。

例如,无家可归的人口和犯罪率可能是相关的,因为在同一地点这两者往往很高或很低。同样可以说,无家可归人口与犯罪率相关,或者犯罪率与无家可归人口相关。说犯罪导致无家可归,或无家可归的人口导致犯罪是不同的说法。并且相关性并不意味着两者都是正确的。例如,根本原因可能是第三个变量,例如吸毒或失业。

统计数学不善于识别根本原因,这需要其他形式的判断。


3
判断是一个好词,因为我们所能观察到的只是相关性。实验和/或聪明的统计数据所能做的就是让我们排除一些可能造成影响的替代解释。
乔纳斯(Jonas)2010年

关于对称/非对称关系的很好的评论。也可能有人声称,全球变暖导致海盗行为增加。
安德烈·霍尔兹纳

27

我最喜欢的:

1)消防员越发火,造成的伤害就越大。

2)接受辅导的孩子的成绩比没有接受辅导的孩子差

并且(这是我的头等)

3)在小学早期,星座与智商有关,但这种关联随着年龄的增长而减弱,并随着成年而消失。


2
(@xmjx去年提供了第一个示例。)我喜欢占星术示例。
ub

你能用星象符号解释样本吗?
Eugene D. Gubenkov

2
没关系,我明白了。这与年初出生的孩子和年底出生的孩子之间的年龄差异有关。真好
尤金·古本科夫

24

我一直很喜欢这个:

柠檬与死亡

来源:http//pubs.acs.org/doi/abs/10.1021/ci700332k


1
很好,但是我看不到有人试图得出因果关系的结论。还是墨西哥柠檬卡车司机一旦越过边境而危险吗?
AdamV

2
显然,美国柠檬法规的大量涌现是无法预见的。例如,请参见:en.wikipedia.org/wiki/Lemon_law
Thylacoleo 2010年

11
我的一位同事查看了2000年后时期的数据,发现这种关系保持了“样本外”,这更令人不安……
shabbychef,2010年


一个简单的合理化就是两者都随着时间而减少。2000年后的数据是否支持这一点?PS,Box Hunter和Hunter(请参阅下文)以相同的方式解释了鹳的例子:在相关期间内,两者均随时间而增加。
埃米尔·弗里德曼

23
  1. 有时相关就足够了。例如,在汽车保险中,男性驾驶员与更多事故相关,因此保险公司向他们收取更多费用。您实际上无法测试是否有因果关系。您无法通过实验更改驾驶员的性别。谷歌已经使数千亿美元不在乎因果关系。

  2. 要找到因果关系,通常需要实验数据,而不是观测数据。但是,从经济学上来说,他们经常在系统上使用观察到的“冲击”来检验因果关系,例如,如果CEO突然去世并且股价上涨,则可以假设因果关系。

  3. 相关是因果关系的必要条件,但不是充分条件。要显示因果关系,需要反事实。


1
我喜欢你举的第一个例子。那肯定会让学生说话;)
csgillespie 2010年

1
史蒂夫·斯坦伯格(Steve Steinberg)在他的博客上进行了有趣的讨论:blog.steinberg.org/?p=11关于1的一些含义以及它在弱AI方面的领先地位。
阿莫斯(Amos)2010年

有人可以扩大最后一句话吗?
naught101

4
简要说明一下:因果关系不需要相关性(取决于相关性是什么意思):如果相关性是线性相关性(使用术语时,默认情况下会假设相当多的人拥有少量统计数据),但是因果关系是非线性的。例如,如果- 1 1 直接导致Ý(这需要在值0 1 ),但ÿ = X(1,1)Y(0,1)。如果X'小号对称分布,Xÿ将是不相关的,即使完全依赖。Y=1X2XsXY
Glen_b 2014年

18

我有一些我喜欢使用的例子。

  1. 在调查80年代纽约市的犯罪原因时,当他们试图清理城市时,一位学者发现严重犯罪数量与街头小贩出售的冰淇淋数量之间很强的相关性!(原因是什么,结果是什么?)显然,有一个未观察到的变量导致了两者。夏季是犯罪率最高,冰淇淋销售最多的时期。

  2. 手掌的大小与您的寿命长短负相关(确实!)。实际上,女性手掌较小,寿命更长。

  3. [我的最爱]我听说几年前的一项研究发现,一个人喝的苏打水与肥胖的可能性呈正相关。(我对自己说-这很有道理,因为这一定是由于人们喝了含糖苏打水并吸收了所有的空卡路里。)几天后,出现了更多细节。几乎所有的相关性都是由于饮食软饮料消费量的增加。(这使我的理论大吃一惊!)那么,因果关系是哪一条呢?减肥软饮料会导致人体重增加,还是体重增加会导致减肥软饮料的消费量增加?(在得出结论之前是后者,请参见研究,在大鼠的对照实验中发现,饲喂含人造甜味剂的酸奶的组的体重比饲喂普通酸奶的组的体重更大。)两个参考文献:多喝苏打水,增加体重?; 苏打水与肥胖有关。我认为他们仍在努力解决这一问题。


4
最后一个比您介绍的要复杂一些,但是我同意,应该用挑剔的眼光看待苏打/减肥汽水与肥胖之间的许多观察联系。从理论上讲,假糖/脂肪替代品除了简单的卡路里摄入外,还具有其他生理作用。例如,参见有关大鼠和合成脂肪的实验(摘自Freakonomics博客)。
安迪W

18

一个国家(根据人口调整)获得的诺贝尔奖数量与人均巧克力消费量有很好的关联。(新英格兰医学杂志

在此处输入图片说明


2
+1我对NEJM感到非常失望,因为他们发表了这篇论文
MattBagg

5
似乎也接近瑞典关联相当好..
naught101

2
巧克力消费量(人均)也与连环杀手的人均数量显着相关。replicatedtypo.com/...
哈维Motulsky

2
我问了三个我(大概)认识的诺贝尔奖获得者,三个人都说他们比大多数同事吃得更多。当然,这些答案是在阅读NEJM论文之后得出的!
Harvey Motulsky

4
@MattBagg这被发布为“临时注释”,显然不被重视。
Pascal


9

我想解决这个事后人为螺旋桨问题的问题有两个方面:(i)反向因果关系和(ii)内生性

“可能的”反向因果关系的一个例子:社会饮酒和收入-饮酒者赚更多的钱,根据Bethany L. Peters和Edward Stringham(2006年。“不喝酒?你可能会输:为什么饮酒者比非饮酒者赚更多的钱”,《劳工杂志》 Research,Transaction Publishers,第27(3)卷,第411-421页,六月)。还是赚更多钱的人喝更多的酒,要么是因为他们有更多的可支配收入,要么是因为压力?出于各种原因(包括测量误差,响应偏差,因果关系等)进行讨论,这是一篇很棒的论文。

“可能的”内生性的一个示例:Mincer方程通过教育程度,经验和经验平方来解释对数收益。关于这个话题有很长的文献。劳动经济学家想估计教育与收入之间的因果关系,但是教育可能是内生的,因为“能力”可以增加个人受教育的数量(通过降低获得教育的成本),并可能导致收入增加,而无论教育水平。一个潜在的解决方案可能是工具变量。Angrist和Pischke的书《几乎无害计量经济学》涵盖了这一点,并以非常详细和清晰的方式涉及了主题。

我不支持的其他愚蠢示例包括:-人均电视机数量和死亡率。因此,让我们将电视发送到发展中国家。显然,两者都是内生于GDP之类的东西。-鲨鱼袭击和冰淇淋销售数量。也许两者都是温度的内生因素?

我还想讲一个关于疯子和蜘蛛的可怕笑话。一个疯子带着一只手掌上的蜘蛛在庇护所的走廊里徘徊。他看了医生,说:“看医生,我可以和蜘蛛说话。观察一下。”“蜘蛛,向左走!”蜘蛛适当地向左移动。他继续说,““蜘蛛,向右走。”医生回答:“有趣的是,也许我们应该在下一个小组会议上谈论这个。”疯子反驳道,“那不是医生。观察它。”他一个接一个地拉开蜘蛛的每条腿,然后大喊:“蜘蛛,向左走!他会双腿失聪。”


8

我所教过的最好的冰淇淋是溺水的数量,冰淇淋的销量可能高度相关,但这并不意味着一种会导致另一种。在夏季,天气好的时候,冰淇淋的溺水和销售明显增加。第三变量又名好天气导致他们。



6

您可以花几分钟在Google Correlate上,并提出各种虚假的关联。


1
尽管此链接可以回答问题,但最好在此处包括答案的基本部分,并提供链接以供参考。如果链接的页面发生更改,仅链接的答案可能会失效。
gung

1
@gung你认真吗?该链接指向的是应用程序,而不是描述答案的简单页面。如果链接页面无论如何更改,答案将变得无效,因为该工具将变得不可用(当前形式)。
Jerome Baum 2014年

6

我与学生合作,在我的“代数一”课程中教授相关性与因果关系。我们研究了许多可能的例子。我发现2013年2月数学老师的文章《捆绑的婴儿和危险的冰淇淋:相关难题》非常有用。我喜欢谈论“潜伏变量”的想法。这部动画片也是一个可爱的对话入门者:

在此处输入图片说明

我们在漫画中确定自变量和因变量,并讨论这是否是因果关系的一个示例,如果不是,则为什么呢?


4

我(很久以前)读到一个有趣的例子,关于出生率(或生育率,如果愿意的话)的下降(尤其是在美国),特别是在美国,从1960年代初开始,因为核武器测试处于历史最高水平(1961年,有史以来最大的核弹在苏联进行了试验)。直到20世纪末,大多数国家终于停止这样做时,费率一直在下降。

我现在找不到将这些数字结合起来的参考文献,但是这篇Wikipedia文章提供了按国家划分的核武器测试数字的数字。

当然,从1960年代初开始“巧合”地看待出生率与避孕药的引入和合法化之间的关系可能更有意义。(首先仅在某些州,然后是所有州,仅针对已婚妇女,然后是某些州,针对未婚女子,然后是全面州),但是即使如此,这也只能是原因之一。平等,经济变化和其他因素的许多其他方面也起着重要作用。


有趣的示例,因为乍一看,它看起来像可能的因果关系,这与许多最简单的示例不同。
Bossykena 2010年

1
我喜欢的是,您可以引起很多讨论,即“影响”是实际上影响生育力(从医学上来讲是一种受孕的能力)还是社会影响力(“我不想让孩子陷入这种不良状况)。世界”)。如果没有其他人提出来,则将重磅炸弹放在药丸周围。然后指出,即使这仅仅是一个可能的因素,并讨论其他一些因素。
AdamV

4

关联本身永远不会建立因果关系。 大卫·休 ume (David Hume,1771-1776年)非常有效地辩称,我们不能仅凭经验手段就一定的因果关系知识。康德试图解决这个问题,康德的维基百科页面似乎很好地总结了这一点:

康德认为自己在经验主义者和理性主义者之间做出了妥协。经验主义者认为,知识是通过经验本身获得的,但理性主义者则认为,这种知识容易受到笛卡尔主义的质疑,而理性本身就为我们提供了知识。康德认为,没有将理性应用于经验就使用理性只会导致幻觉,而经验将纯粹是主观的,而不会首先被纯粹的理性所接受。

换句话说,休ume告诉我们,仅通过观察相关性就不可能知道因果关系的存在,但是康德建议我们也许可以利用我们的理由来区分确实暗示因果关系的相关性与不存在因果关系的相关性。我认为休were不会不同意,只要康德是根据合理性而不是某些知识来写作。

简而言之,相关性提供了暗示因果关系的间接证据,但是证据的权重很大程度上取决于所涉及的特定情况,我们永远不能绝对确定。预测干预效果的能力是一种获得信心的方法(我们无法证明任何事情,但是我们可以通过观察证据来证明这一点,因此,我们至少尝试过捏造因果关系的理论)。有一个简单的模型可以解释为什么我们应该观察到一个相关性,同时也可以解释其他形式的证据,这是我们按照康德的建议运用推理的另一种方式。

警告免责声明:我完全有可能误解了这种哲学,但是仍然存在这样一种情况,即关联永远无法提供因果关系的证据。


2
对于它的价值,在当前术语中,我认为应该将康德理解为断言,例如在《第二类比》中,无论您观察到什么相关,都有一些因果图可以生成它们。据我所知,他没有确定结构的特定方法,但确实假定它必须完全连接(因为“每个事件都有原因”)。从这个意义上说,他是当代的:因果推理需要混合因果假设(例如通过图表表示)和数据中观察到的规律性。而且,您通常既无法避免第一部分,也无法从数据中得出第一部分
conjugateprior

+1解释清楚!也许我也是贝叶斯主义者,但我对我们无法对任何因果关系有一定了解的想法并不太烦。
迪克兰有袋博物馆,2012年




3

我最近去过一次会议,其中一位发言者提供了一个非常有趣的示例(尽管重点是要说明其他内容):

  • 美国人和英国人吃很多脂肪食物。在美国和英国,心血管疾病的发病率很高。

  • 法国人吃很多脂肪食物,但他们的心血管疾病发病率较低。

  • 美国人和英国人喝很多酒。在美国和英国,心血管疾病的发病率很高。

  • 意大利人喝很多酒,但他们又有较低的心血管疾病发生率。

结论?吃和喝你想要的。如果您说英语,则更有可能患心脏病!


3
这也是生态谬误的一个很好的例子(即,从群体水平的数据推断出个人水平)。
Jeromy Anglim


3

我使用的另一个相关示例是,在美国,吃有机食品的人数大量增加,而在美国,被诊断出患有自闭症的儿童人数也在增加。网上有一个模仿图- 自闭症有机食品模仿图


3

http://tylervigen.com/

这显示出大量的因果关系,显然与因果关系无关-或者您是否知道,“美国小姐年龄”与蒸汽,热蒸气和热物体谋杀的因果关系是什么?

??


2

讲“相关并不意味着因果关系”并不能真正帮助任何人,因为归根结底,所有演绎论点都部分基于相关性。

人类非常不善于学习不做某事。

目标应该是建设性的:始终考虑可能产生相同数据的初始假设的替代方法。


1
这没有回答问题:也许应该将其理解为评论。
ub

2

好吧,我的教授在入门概率课程中使用了这些:

1)鞋码与阅读能力相关

2)鲨鱼的袭击与冰淇淋的销售有关。


2

越发着火的消防车,造成的损失越大。


1
以此为例的唯一问题是存在明显的反向因果关系。
naught101

1

我认为,更好的范式可能是因果关系,它要求与可信的,最好是经过验证的机制相关联。我认为隐含这个词在这种情况下应该非常谨慎地使用,因为它有多种含义,包括建议的含义。


1

鹳的例子在Box,Hunter&Hunter的著作“ Statistics for Experimenters ...”(威利)的第一版(1978年)的第8页上。我不知道它是否在第二版中。他们将城市标识为奥尔登堡,时间段为1930-1936。

他们引用Ornithologische Monatsberichte44号,2号Jahrgang,1936年,柏林和 48岁,第1号,Jahrgang(1940年),以及Statistiches Jahrbuch Deutscher Gemeinden(27-33,1932-1938年),Jena Gustav Fischer。


0

我在一篇文章中看到一个有趣的故事。

在十年内,孟加拉国的黄油生产与标准普尔500指数的关联度最高。

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-themselves-the-economic-indicator-in-your-pants/


2
??该图显示了标普随时间的变化。标题谈论黄油和奶酪的生产,在图中看不到。???
Harvey Motulsky


3
好,现在知道了 该图显示了多元回归模型的预测,表明包含三个傻变量可以很好地使模型预测SP500随时间的变化。这是在多元回归中过度拟合的一个很好的例子,并间接表明相关性(或幻想模型的拟合优度提高)并不表示因果关系。
Harvey Motulsky

0

这是一个完美的选择。不幸的是,它可以用作一个很好的教学点,因为《华盛顿邮报》的工作人员和疾病控制与预防中心都没有显示出任何暗示,认为该文章应该是《洋葱》中的讽刺作品。

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837


3
请总结该链接后面的内容,不仅是您认为它是错误的。
cbeleites

抱歉。但是我认为这是不言自明的。
Mark C.

2
该链接可以很好地用作对源的引用,但是您不应假设每个人都可以真正阅读它(或者一定不要麻烦)。请记住:此类链接非常容易受到链接腐烂的影响,并且并非所有报纸都服务于所有地理区域(例如,有些美国报纸认为不值得遵守EU GDPR并因此会阻碍使用EU IP的读者地址)。
cbeleites

-2

有人说,关联可能并不意味着因果关系,但无疑可以是一个很好的提示:)

好的,抛开有趣的部分,到底是什么原因?我们真的确定海盗不会造成全球变暖吗?

违反直觉,但究竟是什么原因和结果(在相关性研究中不清楚)。当然,很多时候两者都可能是共同原因的结果(因此是相关的)

一切都归结为确定因果关系的方法。

这是俗语的成因:

有小谎言。有很多谎言,也有统计数据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.