如何解决辛普森悖论?


35

辛普森悖论是世界范围内入门级统计课程中讨论的经典难题。但是,我的课程很满意,只是注意到存在问题并且没有提供解决方案。我想知道如何解决这个矛盾。也就是说,当面对辛普森悖论时,根据数据的划分方式,两个不同的选择似乎在争夺最佳选择,一个应该选择哪个呢?

为了使问题更具体,让我们考虑相关Wikipedia文章中给出的第一个示例。它基于有关肾结石治疗的真实研究。

在此处输入图片说明

假设我是一名医生,并且检查发现患者患有肾结石。仅使用表中提供的信息,我想确定是否应该采用治疗A或治疗B。似乎,如果我知道结石的大小,那么我们应该首选治疗A。但是如果不知道,那么我们应该更喜欢治疗B。

但是请考虑另一种可行的方式来获得答案。如果结石很大,我们应该选择A,如果结石很小,我们应该再次选择A。因此,即使我们不知道结石的大小,通过案例的方法,我们也应该选择A。这与我们先前的推理相矛盾。

所以:一位病人走进我的办公室。测试显示它们有肾结石,但没有提供有关它们大小的信息。我推荐哪种治疗方法?是否有解决此问题的公认方法?

维基百科暗示使用“因果贝叶斯网络”和“后门”测试的解决方案,但我不知道这些是什么。


2
上面提到的基本辛普森悖论链接是观测数据的一个示例。我们不能在医院之间做出明确的决定,因为可能没有将患者随机分配到医院,而且提出的问题也无法让我们知道例如某家医院是否倾向于接受较高风险的患者。将结果分为操作AE不能解决该问题。
埃米尔·弗里德曼

@EmilFriedman我同意我们可以在各医院之间做出明确决定是正确的。但是可以肯定的是,数据相互支持。(数据确实没有教给我们有关医院质量的信息,这是不对的。)
土豆

Answers:


14

在问题中,您声明自己不知道什么是“因果贝叶斯网络”和“后门测试”。

假设您有一个因果的贝叶斯网络。也就是说,有向无环图的节点表示命题,而有向边表示潜在的因果关系。您的每个假设可能都有许多这样的网络。关于边的强度或存在性,可以通过三种方式提出令人信服的论据 B一种

最简单的方法是干预。当其他人说“适当的随机化”将解决此问题时,这就是其他答案的暗示。您随机强迫有不同的价值观和你衡量。如果可以做到,就可以完成,但是不能总是这样做。在您的示例中,为人们提供对致命疾病的无效治疗可能不道德,或者他们在治疗中有发言权,例如,当肾结石较小且痛苦较小时,他们可能选择不太苛刻的治疗(治疗B)。一种

第二种方法是前门方法。您想证明通过C作用于B,即A C B。如果您假设C可能是由A引起的,但没有其他原因,并且可以测量CA相关,并且BC相关,那么您可以得出结论,肯定是有证据通过C流动。原始示例: A是吸烟,B是癌症,C一种C一种CC一种C一种CC一种C是焦油积累。焦油只能来自吸烟,它与吸烟和癌症相关。因此,吸烟会通过焦油引起癌症(尽管可能存在其他减轻这种影响的因果关系)。

第三种方法是后门方法。您想证明由于“后门”,例如常见原因,即A D BB不相关。既然你已经承担了因果模型,你只需要(通过观察这些变量和调节),以阻止所有路径的证据可以从流量可达和向下。阻止这些路径有些棘手,但是Pearl提供了一种清晰的算法,可以让您知道要观察哪些变量才能阻止这些路径。一种一种d一种

gung是正确的,有了良好的随机性,混杂因素将无关紧要。因为我们假设不允许干预假设的原因(治疗),所以假设的原因(治疗)和效果(生存)之间的任何常见原因(例如年龄或肾结石大小)都是混杂因素。解决方案是进行正确的测量以阻塞所有后门。有关更多阅读,请参阅:

珍珠,犹太。“用于实证研究的因果图。” Biometrika 82.4(1995):669-688。


要将其应用于您的问题,让我们首先绘制因果图。(在治疗之前)肾结石大小和治疗类型Y都是成功Z的原因。 如果其他医生根据肾结石大小分配治疗,则X可能是Y的原因。显然,XYZ之间没有其他因果关系。 Y排X之后,因此它不是其原因。同样,ZXY之后XÿžXÿXÿžÿXžXÿ

由于是常见原因,因此应进行测量。 由实验者确定变量和潜在因果关系的范围。对于每个实验,实验人员都会测量必要的“后门变量”,然后针对每种变量配置计算治疗成功的边际概率分布。对于新患者,您需要测量变量并遵循边缘分布所指示的治疗方法。如果您无法测量所有内容,或者您​​没有大量数据,但是对关系的架构有所了解,则可以在网络上进行“置信传播”(贝叶斯推断)。X


2
很好的答案。您能否简要说一下如何将该框架应用于我在问题中给出的示例?它是否给出预期的答案(A)?
土豆2013年

谢谢!您知道“信仰传播”的简短介绍吗?我有兴趣了解更多。
土豆

@土豆:我从他的书《智能系统中的概率推理》中学到了这一点。在线上有很多教程,但是很难找到一个能建立直觉的教程,而不仅仅是介绍算法。
尼尔·G

22

我有一个事先的答案在这里讨论辛普森的悖论:基本辛普森的悖论。它可以帮助您阅读以更好地理解该现象。

简而言之,辛普森悖论的发生是由于混淆。在您的示例中,治疗方法很混乱*每位患者都有肾结石。从完整的结果表中我们知道,治疗A总是更好。因此,医生应选择治疗A。治疗B总体上看起来更好的唯一原因是,对病情较轻的患者给予治疗B的频率更高,而对病情较重的患者给予治疗A的频率更高。尽管如此,治疗A在两种情况下均表现更好。作为医生,您不必担心过去对病情较轻的患者提供更差的治疗,而您只关心自己之前的患者,并且如果您希望该患者得到改善,您将提供他们得到最好的治疗。

* 请注意,进行实验和随机分配治疗的目的是要创造一种不会混淆治疗的情况。如果所讨论的研究是实验性的,我会说随机过程未能建立公平的群体,尽管这很可能是一项观察性研究-我不知道。


您选择其他答案也建议的标准化方法。我觉得这有问题。可以展示同一数据集的两个分区,这些分区在归一化时给出不同的结论。请参阅我的链接并引用其他答案。
土豆

2
我还没有读过斯坦福的文章。但是,我在引号中找不到理由。在某些人群中,治疗B可能比治疗A更好。这没关系。如果某些人口确实如此,那仅仅是因为人口的特征是混乱的。您面对的是患者(而不是人群),并且该患者在治疗下更有可能康复。无需考虑该患者的肾脏结石是大还是小。你应该选择的治疗A.
恢复莫妮卡-呱

2
新旧分区是否混杂?如果没有,这将不是问题。如果是这样,那么我们将使用全部信息来做出最佳决策。根据我们目前所知,“处理B在总体上看起来最好”是一条红鲱鱼。只是因为混淆,才出现这种情况,但这是一种(统计上的)错觉。
gung-恢复莫妮卡

2
您将拥有一个更复杂的表格,该表格同时考虑了肾结石的大小和年龄。您可以在Wikipedia页面上查看伯克利性别偏见案例示例。
gung-恢复莫妮卡

1
讨厌这么长时间扩展评论,但是...我不会说这个矛盾总是总是由于混淆。这是由于变量之间存在混杂变量导致的关系,但是我不会将所有变量都称为导致Simpson悖论混杂的变量(例如30岁的孩子和90岁的孩子的体重x每年消耗的土豆片的数量-因为90岁的孩子起初要轻得多,如果不包括交互作用,筹码的主要作用可能是负面的。尽管如此,我也不会将这个年龄称为混淆(参见Wikipedia页面上的第一张图。)
John


4

您是否想要解决一个示例或总体上的悖论?后者是没有的,因为悖论可能是由多个原因引起的,需要根据具体情况进行评估。

在报告汇总数据时,这一矛盾主要存在问题,并且在培训个人如何分析和报告数据方面至关重要。我们不希望研究人员报告汇总统计信息以隐藏或混淆数据中的模式,也不希望数据分析师无法识别数据中的实际模式。没有解决方案,因为没有解决方案。

在这种情况下,带桌子的医生显然总是选择A并忽略汇总行。无论他们是否知道石头的大小,都没关系。如果分析数据的人只报告了针对A和B提出的摘要行,那么就会出现问题,因为医生收到的数据无法反映现实情况。在这种情况下,他们可能也应该把表格的最后一行留在表外,因为只有在对汇总统计量应该是什么的一种解释(只有两种可能)下才是正确的。让读者来解释单个单元格通常会产生正确的结果。

(您的大量评论似乎表明您最关注N不平等的问题,Simpson的范围更广,所以我不愿再进一步讨论N不平等的问题。也许问一个更有针对性的问题。此外,您似乎认为我我主张的是归一化结论,我不是,我是在争论,您需要考虑一下摘要统计数据是相对任意选择的,并且某些分析家的选择引起了悖论。有。)


您声称我们应该忽略摘要行。为什么这个“清晰”?
土豆

很明显,因为处理A的大小较大或较小的结石更好,而处理B的唯一原因是N不相等。此外,最后一行不是解释,而是福音。至少有两种方法可以计算该线。如果您想对特定样本说些话,则只会以这种方式进行计算。
John

抱歉,我不明白为什么摘要行是不正确的报告。我想我想念您的中心点。你能解释一下吗?
土豆

1
您可以先进行归一化然后求平均值,这将得出“正确”的结果(A)。但这是非法的。以下引文摘自《斯坦福大学哲学百科全书》中的相关文章,可在此处找到:plato.stanford.edu/entries/paradox-simpson
Potato

2
“辛普森的逆转表明,有多种划分人口的方法,与总人口中的关联一致。按性别划分可能表明,接受新的治疗时,男性和女性的情况都更糟,而同一人口的划分按年龄划分的年龄表明,使用新疗法治疗的年龄在50岁以下的患者以及50岁以上的患者均表现更好。将来自不同人口划分方式的数据归一化将无法得出关于总人口中存在的关联的结论。”
土豆

4

一个重要的“要点”是,如果治疗分配在子组之间不成比例,则在分析数据时必须考虑子组。

第二个重要的“要点”是,由于辛普森悖论的未知存在,观察性研究特别容易给出错误的答案。这是因为我们无法纠正以下事实:如果我们不知道治疗A往往适用于较困难的情况。

在适当随机化的研究中,我们可以(1)随机分配治疗方案,以使对一种治疗方案给予“不公平优势”的可能性极小,并且会在数据分析中自动得到照顾;或者(2)是否存在重要原因为此,请根据某个已知问题随机但不成比例地分配治疗方案,然后在分析过程中考虑该问题。


+1,但是“自动得到照顾”并不是很正确(至少在当前情况下,这是您主要关心的)。从长远来看,这是对的,但是由于抽样错误,您仍然很有可能会出现I型和II型错误(即,处于一种治疗状态的患者仅凭偶然就往往会患上更严重的疾病)。
gung-恢复莫妮卡

但是,当我们分析列联表并计算并正确解释p值时,将考虑采样误差的影响。
埃米尔·弗里德曼
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.