这是一种通用方法,可以通过代数方式了解辛普森悖论以获取计数数据。
假设我们有一次曝光的生存数据,并且我们创建了一个2x2列联表。为了简单起见,我们在每个单元格中的计数都相同。我们可以放松一下,但这会使代数很混乱。
ExposedUnexposedDiedXXSurvivedXXDeath Rate0.50.5
在这种情况下,“已暴露”和“未暴露”组中的死亡率相同。
现在,如果我们拆分数据,比如说将一组划分为女性一组,将另一组划分为男性一组,则将获得2个表,其计数如下:
男性:
ExposedUnexposedDiedXaXcSurvivedXbXdDeath Rateaa+bcc+d
对于女性:
ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
其中a,b,c,d∈[0,1]是在那些雄性所聚集的数据表中的每个单元的比例。
当死亡率暴露男性比死亡率未曝光男性更大辛普森悖论发生和死亡率暴露女性比死亡率未曝光女性更大。另外,它也将在死亡率暴露男性是发生较少比死亡率未曝光的男性和死亡率暴露的女性是不太比死亡率未曝光女性。也就是说,当
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
作为一个具体示例,令X=100,并且a=0.5,b=0.8,c=0.9。然后,当出现以下情况时,我们将得出辛普森悖论:
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
从中我们得出结论:在该d必须位于(0.96,1]
第二组不平等给出:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
d没有解决方案d∈[0,1]
a,b,cd0.99
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
对于女性:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
因此,未暴露组的男性死亡率高于暴露组,而未暴露组的女性死亡率也高于暴露组,但汇总数据中暴露和未暴露组的死亡率相同。