有句老话:“关联不等于因果关系”。在教书时,我倾向于使用以下标准示例来说明这一点:
- 丹麦的鹳数量和出生率;
- 美国牧师的人数和酗酒;
- 在20世纪初,人们注意到“收音机数量”与“疯人院的人数”之间有很强的相关性。
- 我最喜欢的是:海盗导致全球变暖。
但是,我没有这些示例的任何参考,虽然很有趣,但它们显然是错误的。
有人还有其他好的例子吗?
有句老话:“关联不等于因果关系”。在教书时,我倾向于使用以下标准示例来说明这一点:
但是,我没有这些示例的任何参考,虽然很有趣,但它们显然是错误的。
有人还有其他好的例子吗?
Answers:
可能有用的解释是,“原因”是一个不对称关系(X导致Y与Y导致X不同),而“与...相关”是一个对称关系。
例如,无家可归的人口和犯罪率可能是相关的,因为在同一地点这两者往往很高或很低。同样可以说,无家可归人口与犯罪率相关,或者犯罪率与无家可归人口相关。说犯罪导致无家可归,或无家可归的人口导致犯罪是不同的说法。并且相关性并不意味着两者都是正确的。例如,根本原因可能是第三个变量,例如吸毒或失业。
统计数学不善于识别根本原因,这需要其他形式的判断。
我最喜欢的:
1)消防员越发火,造成的伤害就越大。
2)接受辅导的孩子的成绩比没有接受辅导的孩子差
并且(这是我的头等)
3)在小学早期,星座与智商有关,但这种关联随着年龄的增长而减弱,并随着成年而消失。
我一直很喜欢这个:
有时相关就足够了。例如,在汽车保险中,男性驾驶员与更多事故相关,因此保险公司向他们收取更多费用。您实际上无法测试是否有因果关系。您无法通过实验更改驾驶员的性别。谷歌已经使数千亿美元不在乎因果关系。
要找到因果关系,通常需要实验数据,而不是观测数据。但是,从经济学上来说,他们经常在系统上使用观察到的“冲击”来检验因果关系,例如,如果CEO突然去世并且股价上涨,则可以假设因果关系。
相关是因果关系的必要条件,但不是充分条件。要显示因果关系,需要反事实。
我有一些我喜欢使用的例子。
在调查80年代纽约市的犯罪原因时,当他们试图清理城市时,一位学者发现严重犯罪数量与街头小贩出售的冰淇淋数量之间有很强的相关性!(原因是什么,结果是什么?)显然,有一个未观察到的变量导致了两者。夏季是犯罪率最高,冰淇淋销售最多的时期。
手掌的大小与您的寿命长短负相关(确实!)。实际上,女性手掌较小,寿命更长。
[我的最爱]我听说几年前的一项研究发现,一个人喝的苏打水与肥胖的可能性呈正相关。(我对自己说-这很有道理,因为这一定是由于人们喝了含糖苏打水并吸收了所有的空卡路里。)几天后,出现了更多细节。几乎所有的相关性都是由于饮食软饮料消费量的增加。(这使我的理论大吃一惊!)那么,因果关系是哪一条呢?减肥软饮料会导致人体重增加,还是体重增加会导致减肥软饮料的消费量增加?(在得出结论之前是后者,请参见研究,在大鼠的对照实验中发现,饲喂含人造甜味剂的酸奶的组的体重比饲喂普通酸奶的组的体重更大。)两个参考文献:多喝苏打水,增加体重?; 苏打水与肥胖有关。我认为他们仍在努力解决这一问题。
一个国家(根据人口调整)获得的诺贝尔奖数量与人均巧克力消费量有很好的关联。(新英格兰医学杂志)
尽管它更多地是多重比较问题的例证,但它也是错误归因的一个很好的例子:
橄榄球(威尔士宗教)及其对天主教会的影响:本笃十六世教皇应担心吗?
“每次威尔士赢得橄榄球大满贯赛事时,教皇都会去世,除非1978年威尔士的情况非常好,然后有两名教皇去世。”
我想解决这个事后人为螺旋桨问题的问题有两个方面:(i)反向因果关系和(ii)内生性
“可能的”反向因果关系的一个例子:社会饮酒和收入-饮酒者赚更多的钱,根据Bethany L. Peters和Edward Stringham(2006年。“不喝酒?你可能会输:为什么饮酒者比非饮酒者赚更多的钱”,《劳工杂志》 Research,Transaction Publishers,第27(3)卷,第411-421页,六月)。还是赚更多钱的人喝更多的酒,要么是因为他们有更多的可支配收入,要么是因为压力?出于各种原因(包括测量误差,响应偏差,因果关系等)进行讨论,这是一篇很棒的论文。
“可能的”内生性的一个示例:Mincer方程通过教育程度,经验和经验平方来解释对数收益。关于这个话题有很长的文献。劳动经济学家想估计教育与收入之间的因果关系,但是教育可能是内生的,因为“能力”可以增加个人受教育的数量(通过降低获得教育的成本),并可能导致收入增加,而无论教育水平。一个潜在的解决方案可能是工具变量。Angrist和Pischke的书《几乎无害计量经济学》涵盖了这一点,并以非常详细和清晰的方式涉及了主题。
我不支持的其他愚蠢示例包括:-人均电视机数量和死亡率。因此,让我们将电视发送到发展中国家。显然,两者都是内生于GDP之类的东西。-鲨鱼袭击和冰淇淋销售数量。也许两者都是温度的内生因素?
我还想讲一个关于疯子和蜘蛛的可怕笑话。一个疯子带着一只手掌上的蜘蛛在庇护所的走廊里徘徊。他看了医生,说:“看医生,我可以和蜘蛛说话。观察一下。”“蜘蛛,向左走!”蜘蛛适当地向左移动。他继续说,““蜘蛛,向右走。”医生回答:“有趣的是,也许我们应该在下一个小组会议上谈论这个。”疯子反驳道,“那不是医生。观察它。”他一个接一个地拉开蜘蛛的每条腿,然后大喊:“蜘蛛,向左走!他会双腿失聪。”
作为“海盗会导致全球变暖”的概括:选择随时间(单调)增加或减少的任意两个量,您应该看到一些相关性。
您可以花几分钟在Google Correlate上,并提出各种虚假的关联。
我(很久以前)读到一个有趣的例子,关于出生率(或生育率,如果愿意的话)的下降(尤其是在美国),特别是在美国,从1960年代初开始,因为核武器测试处于历史最高水平(1961年,有史以来最大的核弹在苏联进行了试验)。直到20世纪末,大多数国家终于停止这样做时,费率一直在下降。
我现在找不到将这些数字结合起来的参考文献,但是这篇Wikipedia文章提供了按国家划分的核武器测试数字的数字。
当然,从1960年代初开始“巧合”地看待出生率与避孕药的引入和合法化之间的关系可能更有意义。(首先仅在某些州,然后是所有州,仅针对已婚妇女,然后是某些州,针对未婚女子,然后是全面州),但是即使如此,这也只能是原因之一。平等,经济变化和其他因素的许多其他方面也起着重要作用。
关联本身永远不会建立因果关系。 大卫·休 ume (David Hume,1771-1776年)非常有效地辩称,我们不能仅凭经验手段就一定的因果关系知识。康德试图解决这个问题,康德的维基百科页面似乎很好地总结了这一点:
康德认为自己在经验主义者和理性主义者之间做出了妥协。经验主义者认为,知识是通过经验本身获得的,但理性主义者则认为,这种知识容易受到笛卡尔主义的质疑,而理性本身就为我们提供了知识。康德认为,没有将理性应用于经验就使用理性只会导致幻觉,而经验将纯粹是主观的,而不会首先被纯粹的理性所接受。
换句话说,休ume告诉我们,仅通过观察相关性就不可能知道因果关系的存在,但是康德建议我们也许可以利用我们的理由来区分确实暗示因果关系的相关性与不存在因果关系的相关性。我认为休were不会不同意,只要康德是根据合理性而不是某些知识来写作。
简而言之,相关性提供了暗示因果关系的间接证据,但是证据的权重很大程度上取决于所涉及的特定情况,我们永远不能绝对确定。预测干预效果的能力是一种获得信心的方法(我们无法证明任何事情,但是我们可以通过观察证据来证明这一点,因此,我们至少尝试过捏造因果关系的理论)。有一个简单的模型可以解释为什么我们应该观察到一个相关性,同时也可以解释其他形式的证据,这是我们按照康德的建议运用推理的另一种方式。
警告免责声明:我完全有可能误解了这种哲学,但是仍然存在这样一种情况,即关联永远无法提供因果关系的证据。
指出西德新生婴儿数量与鹳繁殖对之间相关性的标准引文是性教育的一个新参数,《自然》 332,495(1988年4月7日)。doi:10.1038 / 332495a0
斯洛文尼亚乡村男性的精子数量与熊的数量(也在斯洛文尼亚)呈负相关。有人觉得这很令人担忧。我将尽力做到这一点的研究。
我最近去过一次会议,其中一位发言者提供了一个非常有趣的示例(尽管重点是要说明其他内容):
美国人和英国人吃很多脂肪食物。在美国和英国,心血管疾病的发病率很高。
法国人吃很多脂肪食物,但他们的心血管疾病发病率较低。
美国人和英国人喝很多酒。在美国和英国,心血管疾病的发病率很高。
意大利人喝很多酒,但他们又有较低的心血管疾病发生率。
结论?吃和喝你想要的。如果您说英语,则更有可能患心脏病!
鹳的例子在Box,Hunter&Hunter的著作“ Statistics for Experimenters ...”(威利)的第一版(1978年)的第8页上。我不知道它是否在第二版中。他们将城市标识为奥尔登堡,时间段为1930-1936。
他们引用Ornithologische Monatsberichte,44号,2号Jahrgang,1936年,柏林和 48岁,第1号,Jahrgang(1940年),以及Statistiches Jahrbuch Deutscher Gemeinden(27-33,1932-1938年),Jena Gustav Fischer。
我在一篇文章中看到一个有趣的故事。
在十年内,孟加拉国的黄油生产与标准普尔500指数的关联度最高。