我刚刚参加了考试,我们看到了两个变量。在一个独裁者游戏中,一个独裁者得到100美元,并且可以选择自己寄出或保留多少钱,在年龄和参与者决定保留多少钱之间存在正相关。
我的想法是,您不能由此推断因果关系,因为您不能从相关性推断因果关系。我的同学认为您可以,因为,例如,如果您将参与者分成三个单独的组,您可以看到他们在保留的人数和共享的人数上有何不同,因此得出结论,年龄会导致他们保留更多的人数。谁是正确的,为什么?
我刚刚参加了考试,我们看到了两个变量。在一个独裁者游戏中,一个独裁者得到100美元,并且可以选择自己寄出或保留多少钱,在年龄和参与者决定保留多少钱之间存在正相关。
我的想法是,您不能由此推断因果关系,因为您不能从相关性推断因果关系。我的同学认为您可以,因为,例如,如果您将参与者分成三个单独的组,您可以看到他们在保留的人数和共享的人数上有何不同,因此得出结论,年龄会导致他们保留更多的人数。谁是正确的,为什么?
Answers:
我可以从您的数据中推测出几种因果关系。
测量年龄,然后保留金额。年长的参与者更喜欢保留更多的钱(也许他们更聪明或更不理想,但这不是重点)。
测量所保留的金额,然后测量年龄。存更多钱的人花更多的时间在数上,因此在衡量年龄时会变老。
生病的人保留更多的钱,因为他们需要钱来(可能是挽救生命的)药物或治疗。实际的相关性是疾病和所保留的钱之间的关系,但是这个变量是“隐藏的”,因此我们得出了错误的结论,因为年龄和疾病的可能性在被选择进行实验的人群中是相关的。
(省略了143个理论;我需要对此保持简短)
结论:您是正确的,但您的同学可能声称自己的正确性是147倍。
另一个著名的相关性是低智商和每天看电视的时间之间的关系。看电视只会使人愚蠢,还是使愚蠢的人会看更多电视?可能两者都有。
通常,从相关性推断因果关系是有问题的,因为可能存在许多其他相关性原因。例如,由于混杂因素造成的虚假相关,选择偏见(例如,仅选择收入低于特定阈值的参与者)或因果效应可能可能只是朝着其他方向发展(例如,温度计与温度相关,但肯定不会导致它)。在每种情况下,同学的程序都可能在没有因果关系的情况下发现因果关系。
但是,如果参与者是随机选择的,我们可以排除混杂因素和选择偏见。在这种情况下,无论是年龄必须使货币保持或货币保持必然导致年龄。后者意味着强迫某人保留一定数量的钱会以某种方式改变他们的年龄。因此,我们可以放心地认为年龄会导致金钱积压。
注意,因果关系可以是“直接”或“间接”。不同年龄的人将接受不同的教育,拥有不同的财富等,并且出于这些原因,他们可能选择保留100美元的不同金额。通过这些介体产生的因果关系仍然是因果关系,但是间接的。
关联是一个数学概念;因果关系是一个哲学思想。
在另一方面,伪相关是一个主要的技术(你不会措施,理论概率教科书找到它)的概念,可以在某种程度上这主要是可操作的定义。
这个想法是密切相关的科学证伪的想法-其目的是从未证明的东西,只能反驳他们。
统计学对数学一样,医学对生物学一样。您需要在大量技术知识的支持下做出最佳判断,但是这种知识永远不足以覆盖整个世界。因此,如果您要以统计学家的身份进行判断并将其呈现给他人,则需要遵循一定的质量标准;也就是说,您正在提供合理的建议,使他们的钱物有所值。这也意味着要考虑到风险的不对称性-在医学测试中,提供假阴性结果(可能会阻止人们及早接受治疗)的成本可能高于提供假阳性结果(可能导致困扰)的成本。 。
在实践中,这些标准因现场而异-有时是三盲RCT,有时是工具变量和其他技术来控制反向因果关系和隐藏的常见原因,有时是Granger因果关系-过去某些情况与存在的东西,但不是相反的东西。甚至可能是严格的正则化和交叉验证。
相关性与因果关系之间的关系已经困扰了哲学家和统计学家多个世纪了。最终,在过去的二十多年中,计算机科学家声称已经将所有信息整理了出来。这似乎并不广为人知。幸运的是,该领域的主要推动者Judea Pearl最近出版了一本书,为大众读者解释了这部作品:《为什么》。
https://www.amazon.com/Book-Why-Science-Cause-Effect/dp/046509760X
剧透警报:如果您知道自己在做什么,则可以在某些情况下从相关性推断因果关系。首先,您需要做出一些因果假设(因果模型,最好基于科学)。而且您需要进行反事实推理的工具(do-代数)。抱歉,我无法精简为几行(我仍在自己读书),但我认为您的问题的答案在那里。
考试问题设计中声称因果关系的问题可以归结为一个简单的事实:衰老不是治疗,根本没有操纵年龄。进行对照研究的主要原因在于,由于对相关变量的操纵和控制,您可以说一个变量的变化会导致结果的变化(在极其特殊的实验条件下以及在船载条件下)其他假设,例如随机分配,以及实验者没有在执行细节中弄乱某些东西,我在此不加掩饰。
但这不是考试设计所描述的-它仅由两组参与者组成,其中一个特定的事实已知他们的年龄(他们的年龄)不同。但您无法知道组别的其他任何方式。由于缺乏控制,您不知道是由于年龄差异导致结果发生变化,还是因为40岁的孩子参加研究的原因是因为他们需要钱,而20岁的孩子却需要钱参加课程信用的学生有不同的动机-或您的小组中其他千种自然差异中的任何一种。
现在,此类事物的技术术语因领域而异。参与者年龄和性别之类的通用术语是“参与者属性”,“外部变量”,“属性自变量”等。最终,您最终得到的不是“真正的实验”或“真正的受控实验”,因为您要声明的内容(例如年龄)实际上并不能控制更改,所以如果没有更高级的方法(例如因果推断,附加条件,纵向数据等),您可以期望得到的最大结果。是声称存在相关性。
这也恰恰是为什么在社会科学中进行实验并理解人们难以控制的属性在实践中如此棘手的原因之一-人们在很多方面存在差异,并且当您无法更改所需的东西时要了解,您往往需要更复杂的实验和推论技术或完全不同的策略。
想象一个这样的假设情景:A组和B组都由20岁的参与者组成。
您像平常一样在A组中玩独裁游戏。
对于B组,您可以拍出科学的神奇衰老之光(或通过让Ghost对待它们 恐怖的容颜),您已经仔细调整了它,使其老化,使B组的所有参与者现在已经40岁了,但是否则保持他们不变,然后像A组一样让他们玩独裁者游戏。
如果更加严格,您可以让40岁的自然年龄的C组确认合成的衰老与自然的衰老具有可比性,但是让事情简单一点,并说我们知道人工衰老就像基于“先验”的真实事物一样工作”。
现在,如果B组比A组保留更多的钱,您可以声称该实验表明老龄化会导致人们保留更多的钱。当然,仍然有大约一千个理由证明您的主张可能是错误的,但是您的实验至少具有有效的因果解释。
不。在因果关系和相关性之间存在单向逻辑关系。
考虑相关性是您在某些数据上计算的属性,例如,Pearson定义的最常见的(线性)相关性。对于这种特殊的相关性定义,您可以创建随机数据点,这些数据点的相关性为零或一个,而彼此之间没有任何因果关系,只需具有某些(a)对称性即可。对于任何相关性定义,您都可以创建一个能够同时显示两种行为的处方:即使存在固定表达式,相关性较高的值之间也没有数学关系,而相关性较低的值也可以。
是的,“无关但高度相关”的关系要弱于“尽管相关但无相关”。但是,如果存在相关性,您唯一的指示符(!)是您必须更加努力地对其进行解释。
通常,您不能从相关性转到因果关系。例如,存在关于社会地位/阶级和花费/储蓄倾向的著名社会科学现象。对于许多许多年前,人们相信,这表明因果关系。去年,更深入的研究表明事实并非如此。
经典的“相关性不是因果关系”-在这种情况下,令人困惑的因素是,在贫穷中成长会教人们以不同的方式使用金钱,如果有盈余则进行支出,因为即使出于各种原因而储蓄,明天也可能没有盈余。
在您的示例中,假设老年人都经历过战争,而年轻人则没有。这种联系可能是,那些在社会混乱中成长,有遭受伤害和生命损失的真正风险的人,学会了优先为自己和需求节省资源,而不是那些在国家,雇主或政府更幸福的情况下成长的人。健康保险公司会照顾好它,而生存并不是影响其前景的问题。然后,您将获得相同的明显联系-老年人(包括与他们年龄较近的那些人)保持更多的联系,但这显然仅与年龄有关。在现实中,致病因素是一个人经历了成年后的社会状况,以及所教养的习惯,而不是年龄本身。
因果关系和相关性是事物的不同类别。这就是为什么仅相关性不足以推断因果关系的原因。
例如,因果关系是有方向的,而相关性不是。推断因果关系时,您需要确定原因是什么,结果是什么。
还有其他事情可能会干扰您的推断。隐藏或第三个变量以及所有统计问题(样本选择,样本大小等)
但是,假设您的统计数据正确完成,则关联可以提供有关因果关系的线索。通常,如果找到关联,则意味着某处存在某种因果关系,因此您应该开始寻找它。
您绝对可以从相关性得出的假设开始。但是,假设不是因果关系,它只是因果关系的可能性。然后,您需要对其进行测试。如果您的假设抵制了足够的伪造尝试,那么您可能会有所准备。
例如,在您的年龄原因贪婪假设中,另一种假设是不是年龄,而是成为独裁者的时间。因此,您将寻找旧的但最近得到授权的独裁者作为对照组,而将年轻但独裁的人从小作为第二代,然后检查那里的结果。
感谢@AdamO,为本文提供了很多讨论和争论点。我试图提供因果关系的物理视图,这对于统计的一般读者可能并不熟悉。
从物理科学的角度来看,您是正确的。以最简单的形式,基于时间的物理因果关系观点的可能性是基于科学解释演绎法论(DN)观点的基础,并考虑了可以解释的事件是否可以归为科学定律。在DN视图中,如果应用(确定性)定律可以从给定的初始条件得出物理状态,则认为该物理状态可以解释。(这种初始条件可以包括双星在任何给定时刻的动量和彼此之间的距离。)这种“确定论的解释”有时被称为因果确定论。
要对此进行更全面的介绍,可以包括Hempel的归纳统计模型以形成科学的解释,该链接提供了因果关系的更完整讨论。
至于眼前的问题,年龄可能与经验有关,但关系并不简单,而且,不同年龄的脑功能也不同(时间分界随着年龄而扩大)。经验是行为的调节者,其变化是相当多的,仅因为在特定地域和时间意义上的同伙可能具有相似的历史经验,并不意味着可以将这些经验所产生的任何行为推断给其他同伙而不必担心矛盾。对于对照试验,经验的共通性是一个不受控制的变量,它将未知且未经探索的虚假相关量引入任何二元比较中,因此不应将发现的任何差异视为揭示了可能的因果关系。此外,找到可能的原因后,只会构成一种怀疑,而不能一经定罪就可以陈述;充其量只是一个可行的假设,而不是最佳的结论。关于因果关系的定罪只应从一系列证据中得出,这些证据足以使这些定罪毫无道理地受到怀疑。对于上述问题,情况并非如此,因为对于该问题,没有足够的信息来主张超出队列群组巧合语境之外的任何因果关系。实际上,可以提出许多假设,例如,文化/历史时代的经验改变了慷慨随年龄的演变,因此无法从所述问题中得出确切的结论。关于因果关系的定罪只应从一系列证据中得出,这些证据足以使这些定罪毫无道理地受到怀疑。对于上述问题,情况并非如此,因为对于该问题,没有足够的信息来主张超出队列群组巧合语境之外的任何因果关系。实际上,可以提出许多假设,例如,文化/历史时代的经验改变了慷慨随年龄的演变,因此无法从所述问题中得出确切的结论。关于因果关系的定罪只应从一系列证据中得出,这些证据足以使这些定罪毫无道理地受到怀疑。对于上述问题,情况并非如此,因为对于该问题,没有足够的信息来主张超出队列群组巧合语境之外的任何因果关系。实际上,可以提出许多假设,例如,文化/历史时代的经验改变了慷慨随年龄的演变,因此无法从所述问题中得出确切的结论。