安德鲁·盖尔曼(Andrew Gelman)在他最近的一篇博客文章中说:
我认为反事实或潜在的结果对于辛普森悖论没有必要。我之所以这样说,是因为人们可以用无法操纵的变量设置辛普森悖论,或者不能直接对其进行操纵。
辛普森悖论是一个更普遍的问题的一部分,如果您添加更多的预测变量,回归系数会改变,但实际上没有必要翻转符号。
这是我在教学中使用的示例,说明了这两点:
我可以进行回归分析,以预测来自性别和身高的收入。我发现性别的系数为 10,000 美元(即,比较一个身高相同的男人和女人,平均而言,这个男人会多赚10,000 美元),而身高系数为 500 美元(即,比较两个男人或两个女人不同高度的平均高大的人会使$ 500多家每高度英寸)。
我如何解释这些系数?我觉得身高系数很容易解释(很容易想象将两个相同性别的不同身高的人进行比较),的确,在不控制性别的情况下,身高回归似乎有些“错误” 身材矮小的人之间的差异可以通过男女之间的差异来“解释”。但是上述模型中的性别系数似乎很难解释:例如,为什么要比较一个身高66英寸的男人和一个女人?那将是一个矮个子男人和一个高个子女人的比较。所有这些推理似乎都是模糊的因果关系,但我认为使用潜在的结果来思考它是没有道理的。
我仔细考虑了一下(甚至在帖子中发表了评论),并认为这里有些事情需要更清楚地理解。
在解释性别之前,还可以。但我看不出比较矮个子和个高个子的女人背后的问题是什么。这是我的观点:实际上,这更有意义(假设男人的平均身高更高)。出于完全相同的原因,您不能比较“矮个子男人”和“矮个子女人”,即收入差异在某种程度上由身高差异来解释。高个子男人和高个子女人也是如此,矮个子女人和高个子男人更是如此(可以这么说)。因此,基本上只有在比较矮个子和高个子的情况下才消除身高的影响(这有助于解释性别系数)。难道不是流行的匹配模型背后的类似基础概念的钟声吗?
辛普森悖论背后的想法是,人口效应可能与亚群体效应不同。从某种意义上说,这与他的观点2和他承认不应单独控制身高(我们所说的是忽略变量偏差)有关。但是我不能将其与关于性别系数的争论联系起来。
也许您可以更清楚地表达它?或评论我的理解?