您能用方程式而不是列联表来解释辛普森悖论吗?


14

我可能对辛普森的悖论并不清楚。我非正式地知道,对所有可能水平的因子A进行分组的响应Y1的平均值都可以高于对所有水平A的响应Y2的平均值,即使每个水平A(每个组)的Y1平均值为始终小于Y2的相应平均值。我已经阅读了示例,但是每次看到示例时我仍然感到惊讶,这可能是因为我对特定示例的学习不够好:我很难归纳它们。我学得最好,并且宁愿看到公式中的解释。您能否解释依赖方程而不是计数表的悖论?

另外,我认为令我惊讶的原因是,我可能会不知不觉地对涉及悖论的平均值做出一些假设,但总体上可能并不正确。也许我忘了按每组样本的数量来加权?但是然后,我想看到一个方程式,该方程式向我显示,如果我按每个组中的样本数对每个组的平均值加权,则总平均值的估计会更准确,因为(如果是真的)这并不明显对我而言 天真的,我认为当我有更多样本时,的估计值E[Y1]具有较低的标准误差,而与加权无关。


1
在这里有一篇有关模拟的文章。模拟可能对您了解辛普森的悖论有所帮助
Haitao Du

是一台按需生产辛普森悖论的机器!
kjetil b halvorsen

Answers:


11

这是一种通用方法,可以通过代数方式了解辛普森悖论以获取计数数据。

假设我们有一次曝光的生存数据,并且我们创建了一个2x2列联表。为了简单起见,我们在每个单元格中的计数都相同。我们可以放松一下,但这会使代数很混乱。

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

在这种情况下,“已暴露”和“未暴露”组中的死亡率相同。

现在,如果我们拆分数据,比如说将一组划分为女性一组,将另一组划分为男性一组,则将获得2个表,其计数如下:

男性:

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

对于女性:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

其中a,b,c,d[0,1]是在那些雄性所聚集的数据表中的每个单元的比例。

当死亡率暴露男性比死亡率未曝光男性更大辛普森悖论发生死亡率暴露女性比死亡率未曝光女性更大。另外,它也将在死亡率暴露男性是发生较少比死亡率未曝光的男性死亡率暴露的女性是不太比死亡率未曝光女性。也就是说,当

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

作为一个具体示例,令X=100,并且a=0.5,b=0.8,c=0.9。然后,当出现以下情况时,我们将得出辛普森悖论:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

从中我们得出结论:在该d必须位于(0.96,1]

第二组不平等给出:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

d没有解决方案d[0,1]

a,b,cd0.99

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

对于女性:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

因此,未暴露组的男性死亡率高于暴露组,而未暴露组的女性死亡率高于暴露组,但汇总数据中暴露和未暴露组的死亡率相同。


16

假设我们有两个变量的数据, Xÿ,分为2组,A和B。

A组中的数据使得拟合回归线为

ÿ=11-X

平均值为 29 对于 Xÿ 分别。

B组中的数据使得拟合回归线为

ÿ=25-X

平均值为 1114 对于 Xÿ 分别。

所以回归系数为 X-1个 在两组中。

此外,让每组中的观察数相等,并且y和y对称分布。现在,我们希望计算总体回归线。为了简单起见,我们将假定总体回归线通过每个组的均值,即29 对于组A和 1114 对于B组。那么很容易看出总体回归线斜率必须为 14-9/11-2=0.55 这是针对 X。因此,我们看到了辛普森的悖论在起作用–我们对Xÿ每个组中的每个变量,但汇总数据时总体上呈正相关。我们可以在R中很容易地证明这一点,如下所示:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

红点和回归线是组A,蓝点和回归线是组B,黑线是整体回归线。


嗨,谢谢您的回答,但这是辛普森悖论的另一个具体示例。我特别要求定理或一组方程式的形式,这是一种更抽象,更通用的方法。无论如何,由于没有其他答案,所以我将研究您的示例,如果我认为这有助于我概括该概念,那么我将接受答案。
DeltaIV '16

3
@DeltaIV我已经用纯代数论证写了一个新的答案。
罗伯特·朗
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.