Questions tagged «simpsons-paradox»

5
如何解决辛普森悖论?
辛普森悖论是世界范围内入门级统计课程中讨论的经典难题。但是,我的课程很满意,只是注意到存在问题并且没有提供解决方案。我想知道如何解决这个矛盾。也就是说,当面对辛普森悖论时,根据数据的划分方式,两个不同的选择似乎在争夺最佳选择,一个应该选择哪个呢? 为了使问题更具体,让我们考虑相关Wikipedia文章中给出的第一个示例。它基于有关肾结石治疗的真实研究。 假设我是一名医生,并且检查发现患者患有肾结石。仅使用表中提供的信息,我想确定是否应该采用治疗A或治疗B。似乎,如果我知道结石的大小,那么我们应该首选治疗A。但是如果不知道,那么我们应该更喜欢治疗B。 但是请考虑另一种可行的方式来获得答案。如果结石很大,我们应该选择A,如果结石很小,我们应该再次选择A。因此,即使我们不知道结石的大小,通过案例的方法,我们也应该选择A。这与我们先前的推理相矛盾。 所以:一位病人走进我的办公室。测试显示它们有肾结石,但没有提供有关它们大小的信息。我推荐哪种治疗方法?是否有解决此问题的公认方法? 维基百科暗示使用“因果贝叶斯网络”和“后门”测试的解决方案,但我不知道这些是什么。

3
应该选择哪家医院?一个具有较高的成功率,但另一个具有较高的总体成功率
我对统计老师说的以下问题有疑问。我的问题甚至不在这种情况下发生的辛普森悖论上。我的问题仅仅是我的教授坚持认为A)和D)是正确的答案,而不是A)和F)。他说: “由于E型手术的成功率很低,我们可以得出结论,这很困难,而且不仅仅罕见。因此,与Hope相比,Mercy可能拥有更好的设备/医生。” 我不了解他如何从统计学上推断出Mercy做了“更困难的手术”。Mercy显然在E型手术中具有更高的成功率,但是为什么这意味着他们进行“更困难的手术”。我想我被这个问题的措词所困扰,而教授并没有让步。有人可以向我解释为什么我错了,或者如何向教授解释这一点吗? 您所在的镇有两家名为Mercy和Hope的医院。您必须选择其中一项进行操作。您决定以他们的外科团队的成功为基础。幸运的是,根据新的医疗计划,医院会提供有关手术成功与否的数据,这些数据分为五大类。假设您获得了两家医院的以下数据: Mercy Hospital Type A B C D E All Operations 359 1836 299 2086 149 4729 Successful 292 1449 179 434 13 2366 Hope Hospital Type A B C D E All Operations 88 514 222 86 45 955 Successful 70 391 113 12 2 588 …

3
理解辛普森的悖论:安德鲁·盖尔曼(Andrew Gelman)的性别和身高收入递减示例
安德鲁·盖尔曼(Andrew Gelman)在他最近的一篇博客文章中说: 我认为反事实或潜在的结果对于辛普森悖论没有必要。我之所以这样说,是因为人们可以用无法操纵的变量设置辛普森悖论,或者不能直接对其进行操纵。 辛普森悖论是一个更普遍的问题的一部分,如果您添加更多的预测变量,回归系数会改变,但实际上没有必要翻转符号。 这是我在教学中使用的示例,说明了这两点: 我可以进行回归分析,以预测来自性别和身高的收入。我发现性别的系数为 10,000 美元(即,比较一个身高相同的男人和女人,平均而言,这个男人会多赚10,000 美元),而身高系数为 500 美元(即,比较两个男人或两个女人不同高度的平均高大的人会使$ 500多家每高度英寸)。 我如何解释这些系数?我觉得身高系数很容易解释(很容易想象将两个相同性别的不同身高的人进行比较),的确,在不控制性别的情况下,身高回归似乎有些“错误” 身材矮小的人之间的差异可以通过男女之间的差异来“解释”。但是上述模型中的性别系数似乎很难解释:例如,为什么要比较一个身高66英寸的男人和一个女人?那将是一个矮个子男人和一个高个子女人的比较。所有这些推理似乎都是模糊的因果关系,但我认为使用潜在的结果来思考它是没有道理的。 我仔细考虑了一下(甚至在帖子中发表了评论),并认为这里有些事情需要更清楚地理解。 在解释性别之前,还可以。但我看不出比较矮个子和个高个子的女人背后的问题是什么。这是我的观点:实际上,这更有意义(假设男人的平均身高更高)。出于完全相同的原因,您不能比较“矮个子男人”和“矮个子女人”,即收入差异在某种程度上由身高差异来解释。高个子男人和高个子女人也是如此,矮个子女人和高个子男人更是如此(可以这么说)。因此,基本上只有在比较矮个子和高个子的情况下才消除身高的影响(这有助于解释性别系数)。难道不是流行的匹配模型背后的类似基础概念的钟声吗? 辛普森悖论背后的想法是,人口效应可能与亚群体效应不同。从某种意义上说,这与他的观点2和他承认不应单独控制身高(我们所说的是忽略变量偏差)有关。但是我不能将其与关于性别系数的争论联系起来。 也许您可以更清楚地表达它?或评论我的理解?

2
您能用方程式而不是列联表来解释辛普森悖论吗?
我可能对辛普森的悖论并不清楚。我非正式地知道,对所有可能水平的因子A进行分组的响应Y1的平均值都可以高于对所有水平A的响应Y2的平均值,即使每个水平A(每个组)的Y1平均值为始终小于Y2的相应平均值。我已经阅读了示例,但是每次看到示例时我仍然感到惊讶,这可能是因为我对特定示例的学习不够好:我很难归纳它们。我学得最好,并且宁愿看到公式中的解释。您能否解释依赖方程而不是计数表的悖论? 另外,我认为令我惊讶的原因是,我可能会不知不觉地对涉及悖论的平均值做出一些假设,但总体上可能并不正确。也许我忘了按每组样本的数量来加权?但是然后,我想看到一个方程式,该方程式向我显示,如果我按每个组中的样本数对每个组的平均值加权,则总平均值的估计会更准确,因为(如果是真的)这并不明显对我而言 天真的,我认为当我有更多样本时,的估计值E[Y1]E[Y1]\mathbf{E}[Y_1]具有较低的标准误差,而与加权无关。

2
辛普森悖论是否涵盖了所有从隐藏变量撤消的情况?
以下是有关作为“辛普森悖论”存在的“图片证明”提供的许多可视化的问题,以及有关术语的问题。 辛普森悖论是一个相当简单的现象来描述,并给予的(原因数值例子,为什么会发生这种情况是深刻而有趣)。矛盾的是,存在2x2x2列联表(Agresti,分类数据分析),其中边际关联与每个条件关联的方向不同。 也就是说,两个亚群中比率的比较都可以朝一个方向进行,但合并总体中的比率可以朝另一个方向进行。在符号中: 存在使得 a + ba ,b ,c ,d,ē ,˚F,g ^,小时一个,b,C,d,Ë,F,G,Ha,b,c,d,e,f,g,h一个+ bc + d&gt; e + fG+ 小时一个+bC+d&gt;Ë+FG+H \frac{a+b}{c+d} > \frac{e+f}{g+h} 但 和一个C&lt; eG一个C&lt;ËG \frac{a}{c} < \frac{e}{g} bd&lt; fHbd&lt;FH \frac{b}{d} < \frac{f}{h} 在以下可视化中(从Wikipedia)可以准确地表示出这一点: 一小部分是简单地对应的矢量的斜率,并且很容易在该示例中看到,较短乙矢量具有比相应的L矢量更大的斜率,但合并乙向量具有较小比组合1载体斜率。 有许多形式的非常常见的可视化,特别是在Simpson上的Wikipedia参考文献的开头: 这是混淆的一个很好的例子,隐藏变量(将两个子种群分开)如何显示不同的模式。 但是,从数学上讲,这样的图像绝不对应于作为基于辛普森悖论现象的现象的列联表的显示。首先,回归线位于实值点集数据之上,而不是对列联表中的数据进行计数。 同样,可以在回归线上创建具有任意斜率关系的数据集,但是在列联表中,斜率的不同程度受到限制。也就是说,总体的回归线可以与给定子群体的所有回归正交。但是,在辛普森悖论中,尽管不是反向回归,但亚群的比率即使偏离另一个方向,也不会偏离合并的人群(同样,请参见维基百科的比率比较图)。 对我来说,每次我将后者视为辛普森悖论的形象时,都足以吓一跳。但是,由于我到处都看到(我称之为错误的)示例,所以我很想知道: 我是否错过了从原始的Simpson / Yule列联表示例到转化为回归线可视化的真实值的微妙转换? 当然,辛普森的错误是一个特殊的例子。已经术语“辛普森悖论”现在已经成为等同于与混杂的错误,所以,无论数学,任何通过隐变量的方向变革,可以称之为辛普森悖论? 附录:以下是对2xmxn(或2乘以m,连续的)表的一般化示例: 如果以投篮方式合并,则防守者越近,球员的投篮机会就越多。按投篮类型分组(实际上是与篮筐的距离),则发生的直观情况越多,则投篮越多,防守队员越远。 我认为此图像是辛普森(Simpson's)对更连续情况(防御者的距离)的概括。但是我仍然看不到回归线示例是Simpson的示例。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.