辛普森悖论是否涵盖了所有从隐藏变量撤消的情况?


10

以下是有关作为“辛普森悖论”存在的“图片证明”提供的许多可视化的问题,以及有关术语的问题。

辛普森悖论是一个相当简单的现象来描述,并给予的(原因数值例子,为什么会发生这种情况是深刻而有趣)。矛盾的是,存在2x2x2列联表(Agresti,分类数据分析),其中边际关联与每个条件关联的方向不同。

也就是说,两个亚群中比率的比较都可以朝一个方向进行,但合并总体中的比率可以朝另一个方向进行。在符号中:

存在使得 a + b一个bCdËFGH

一个+bC+d>Ë+FG+H

一个C<ËG

bd<FH

在以下可视化中(从Wikipedia)可以准确地表示出这一点:

向量中的辛普森悖论

一小部分是简单地对应的矢量的斜率,并且很容易在该示例中看到,较短乙矢量具有比相应的L矢量更大的斜率,但合并乙向量具有较小比组合1载体斜率。

有许多形式的非常常见的可视化,特别是在Simpson上的Wikipedia参考文献的开头:

亚人群中相反的坡度

这是混淆的一个很好的例子,隐藏变量(将两个子种群分开)如何显示不同的模式。

但是,从数学上讲,这样的图像绝不对应于作为基于辛普森悖论现象的现象的列联表的显示。首先,回归线位于实值点集数据之上,而不是对列联表中的数据进行计数。

同样,可以在回归线上创建具有任意斜率关系的数据集,但是在列联表中,斜率的不同程度受到限制。也就是说,总体的回归线可以与给定子群体的所有回归正交。但是,在辛普森悖论中,尽管不是反向回归,但亚群的比率即使偏离另一个方向,也不会偏离合并的人群(同样,请参见维基百科的比率比较图)。

对我来说,每次我将后者视为辛普森悖论的形象时,都足以吓一跳。但是,由于我到处都看到(我称之为错误的)示例,所以我很想知道:

  • 我是否错过了从原始的Simpson / Yule列联表示例到转化为回归线可视化的真实值的微妙转换?
  • 当然,辛普森的错误是一个特殊的例子。已经术语“辛普森悖论”现在已经成为等同于与混杂的错误,所以,无论数学,任何通过隐变量的方向变革,可以称之为辛普森悖论?

附录:以下是对2xmxn(或2乘以m,连续的)表的一般化示例: 关于距离的篮筐百分比,隐藏变量是投篮类型

如果以投篮方式合并,则防守者越近,球员的投篮机会就越多。按投篮类型分组(实际上是与篮筐的距离),则发生的直观情况越多,则投篮越多,防守队员越远。

我认为此图像是辛普森(Simpson's)对更连续情况(防御者的距离)的概括。但是我仍然看不到回归线示例是Simpson的示例。


5
辛普森悖论不仅适用于分类目标数据。像最终图中那样,具有影响其的分类因素的连续目标数据可能会产生悖论。关键在于“分类因素”,而不是关注变量是否是分类变量,还是影响关注变量的其他因素中的任何一个或全部是否是分类变量。
jbowman

@jbowman好的,我可以看到SP可以从分类数据推广到连续数据(我没有看到这种概括; SP似乎总是与列联表一起呈现),但是我看不到第二张图是如何对应的。我的意思是我看到了一个明显但模糊的隐喻:“隐藏变量可以改变方向”,但是我只是看不到泛化如何在数学上/精确地起作用。
米奇

1
您有一个隐藏的分类因素,导致“实际”数据遵循两条彩色线,但是在不了解的情况下,数据似乎遵循虚线。将按年龄划分的交通事故视为目标和x轴变量-并非绝对变量。他们似乎随着年龄的增长而下降,对吗?现在添加“酒后开车”的“隐藏因素”。蓝线是“酒后开车”,红线是“酒后开车”。考虑到与青年相关的隐藏因素,事故会随着年龄增长而增加!(我必须承认,这不是最现实的例子,但是这个想法很重要……)
jbowman

@jbowman这听起来像是对混杂错误而不是SP的解释。也许您是说SP和混淆是相同的。但这听起来是一个答案。也许您可以将其形式化一些,并使与SP的连接更明确(从数学上讲,回归线在某种程度上类似于列联表中的比率比较)。
米奇

1
Xp

Answers:


8

矛盾的是,存在2x2x2列联表(Agresti,分类数据分析),其中边际关联与每个条件关联的方向不同。我是否错过了从原始Simpson / Yule列联表示例到证明回归线可视化的真实值?

主要问题是您将一种简单的方法等同于将悖论显示为悖论本身。列联表的简单例子不是悖论本身。在比较边际和条件关联时,辛普森悖论是关于因果直觉的冲突,这通常是由于符号反转(或极端衰减,例如独立性,如辛普森本人给出的原始示例,其中没有符号反转)。当您对两个估计值进行因果关系解释时,就会出现悖论,这可能会得出不同的结论-治疗对患者有帮助还是对患者造成伤害?您应该使用哪种估计?

Ëÿ|XX>0Ëÿ|XC=CX<0C

当然,辛普森的错误是一个特殊的例子。

这是不对的!辛普森的悖论并不是混淆错误的一个特殊实例-如果仅仅是那样,那么根本就不会有悖论。毕竟,如果您确定某些关系被混淆了,您不会意外地看到符号反转或列联表或回归系数中的衰减-甚至您可能会期望如此。

因此,尽管辛普森悖论是在比较边际关联和条件关联时提及“效应”的逆转(或极度衰减),但这可能不是由于混淆而造成的,并且先验地你不知道边际还是条件表是“正确的” ”以回答您的因果查询。为此,您需要更多地了解问题的因果结构。

考虑一下Pearl中给出的这些示例: 在此处输入图片说明

Xÿžžžžž

珀尔解释了为什么这被认为是“悖论”以及为什么它仍然困扰着人们,这是很合理的。以(a)中描述的简单情况为例:因果关系不能像这样简单地逆转。因此,如果我们错误地假设两个估计是因果(边际和条件),我们会惊讶地看到这样的事情发生---和人类似乎有线看到大多数协会的因果关系。

回到您的主要(标题)问题:

辛普森悖论是否涵盖了所有从隐藏变量撤消的情况?

从某种意义上讲,这是辛普森悖论的当前定义。但是显然条件变量不是隐藏的,必须加以观察,否则您将看不到悖论的发生。悖论的大部分令人困惑的部分是由因果关系引起的,这个“隐藏”变量不一定是混杂因素。

偶数表和回归

ÿXž

ÿX

一个+bC+d-Ë+FG+H=CØvÿXv一个[RX

žž=1个

一个C-ËG=CØvÿX|ž=1个v一个[RX|ž=1个

ž=0

bd-FH=CØvÿX|ž=0v一个[RX|ž=0

CØvÿXv一个[RXCØvÿX|žv一个[RX|žCØvÿXv一个[RX


1
在您看来,Simpson的悖论听起来不仅是指边际和条件关联存在差异的可能性,而且还涉及在解释数据时使用哪个“正确”的混淆?珀尔(Pearl)表明,因果结构是我们用来决定这一点的依据?
保罗

2
“在比较边际联想和条件联想时,辛普森悖论是关于直觉的冲突。” 我在这里不同意,辛普森悖论特别是指将原始结果与分层结果进行比较时的符号翻转。
AdamO '17

2
@AdamO虽然大多数人将符号反转的极端情况用作Simpson悖论的“严格”定义,但Simpson的原始示例实际上没有符号反转。
卡洛斯·辛纳利

1
@Paul完全正确。
卡洛斯·辛纳利

2
@AdamO我认为,Pearl解释为什么这被认为是“悖论”以及为什么它仍然困扰着人们是合理的。例如,在(a)的简单情况下,因果关系不能像这样简单地逆转。因此,如果我们对这两种情况都进行了因果关系的思考,我们会惊讶地发现这样的事情正在发生,并且-人们似乎渴望看到大多数关联中的因果关系。
卡洛斯·辛纳利

2

我是否错过了从原始的Simpson / Yule列联表示例到转化为回归线可视化的真实值的微妙转换?

是。通过在Y轴上可视化响应的对数奇数,可以对分类分析进行类似表示。辛普森悖论的出现方式几乎与“粗线”相对,该粗线与根据结果的层引用对数奇数对距离加权的特定于层的趋势相对。

这是伯克利录取数据的一个示例

在此处输入图片说明

这里的性别是男性/女性代码,在X轴上是男性与女性的粗略入学对数,黑色粗虚线​​表示性别偏爱:正斜率表明对男性入学有偏见。颜色代表特定部门的录取。在除两种情况以外的所有情况下,部门特定的性别偏好线的斜率均为负。如果在不考虑相互作用的逻辑模型中将这些结果平均起来,则总体效果是逆转,有利于女性入学。他们比男性更频繁地向较困难的部门申请。

当然,辛普森的错误是一个特殊的例子。现在,“辛普森悖论”一词是否等同于混淆错误,因此无论数学如何,通过隐藏变量进行的方向变化都可以称为辛普森悖论?

简要地,没有。辛普森的悖论只是“什么”,而混淆是“为什么”。占主导地位的讨论集中在他们的共识上。混杂因素对估计的影响可能很小或可以忽略不计,或者,辛普森悖论虽然引人注目,但可能是由非混杂因素引起的。需要注意的是,术语“隐藏”或“潜伏”变量是不精确的。从流行病学家的角度来看,仔细的控制和研究设计应能够衡量或控制可能造成混淆的因素。他们不必“隐藏”成为问题。

在某些情况下,点估计可能会大幅度变化,直到发生逆转,这并不是混杂造成的。碰撞者和调解者也会改变效果,可能会逆转它们。因果推理警告,为了研究效果,应单独研究主要效果,而不要针对这些效果进行调整,因为分层估计是错误的。(这类似于错误地推断看医生会让您生病,或者枪支会杀死人,因此人不会杀死人)。


所以你会说辛普森的原始例子不是“辛普森悖论”的案例吗?
卡洛斯·辛纳利

@CarlosCinelli您将引用什么示例?我无法获得辛普森(Simpson)在1951年发表的论文,但是鉴于该论文发表在JRSS上,并且没有引用摘要中的应用示例,因此这似乎是纯理论上的工作。
AdamO

这是第9段和第10段的数值示例,其中他给出了相同的列联表,带有两个不同的故事,这会导致两种不同的因果解释。在该示例中,没有符号反转,只有边际独立性。
卡洛斯·辛纳利

2
要了解为什么符号反转在这里无关紧要,请想象一种情况,一种治疗方法对男人和女人显示出极强的关联性,但总体上仅显示出很小的关联性。如果按因果解释,这对于大多数人来说仍然是矛盾的。
卡洛斯·辛纳利

@CarlosCinelli我会说这是一个令人困惑的例子,但本身并不是辛普森的悖论但我不会为此而感到困惑,我认为您提出了一个很好的论据,也许我对什么是什么不是辛普森悖论的难以捉摸的现象。
AdamO '17
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.