更重要的统计数据是:“所有妇女中90%幸存”或“所有妇女中90%是妇女”?


14

考虑以下有关泰坦尼克号的陈述:

假设1:只有男人和女人在船上

假设2:有很多男人和女人

陈述1:90%的妇女幸存

陈述2:在所有幸存者中,有90%是女性

第一个表明,挽救妇女可能是重中之重(无论是否挽救男性)

第二种统计数据什么时候有用?

我们可以说其中一个几乎总是比另一个有用吗?


40
出于什么目的更有用?
阿克萨卡尔州

12
这些答案都没有惊讶地提到辛普森悖论
尼莫(Nemo)

3
我会说这取决于你是否是女人!
meh

6
如果没有可比的男性统计数据,那么第一个陈述就没有意义。
巴马尔

1
@RahulSaha但是,如果95%的男人幸存下来,则可能意味着他们将男人的优先权提高了。这就是为什么需要比较。
Barmar

Answers:


54

从目前的角度来看,陈述1或2都不是非常有用的。如果90%的乘客是女性,而90%的人随机幸存,那么这两种说法都是正确的。需要在乘客总体组成的背景下考虑声明。和生存的总体机会。


假设我们的男人和女人一样多,每人100个。以下是男(女)对女(女)和生还(女)对死者(女)的几种可能矩阵:

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90%的妇女幸存下来。和90%的男性一样。陈述1是正确的,陈述2是错误的,因为一半的幸存者是女性。这与许多幸存者是一致的,但性别之间没有区别

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90%的女性得以幸存,而男性只有10%。90%的幸存者是女性。两种说法都是正确的。这与性别差异是一致的:女性比男性更有可能生存。

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9%的女性幸存下来,但男性只有1%。90%的幸存者是女性。陈述1为假,陈述2为真。这再次符合性别差异:女性比男性更有可能生存。


3
(or indeed, if *everyone* survived)... 如果每个人都能生存,那么无论比例如何,所有妇女中的100%都能生存。
Bridgeburners '18

1
@Bridgeburners:您完全正确,当我离开计算机时,它使我震惊。谢谢,我编辑了答案。
斯蒂芬·科拉萨

18

从表面上看,仅由于信息流的方向,以性别为条件生存的条件概率更为有用。一个人的性别在其生存状态之前就已经知道,因此可以在预测的意义上使用此概率。而且,它不受女性患病率的影响。如有疑问,请考虑预测。


是的,表面上。因此,为了确保我理解这如何适用于所讨论的实际统计信息……您说的是陈述#1很有用,因为它告诉我,如果我碰巧是女性,则在1912年乘坐大型客运列车恰好在沉没在冰山中的水域中,那么我存活的机会是90%?并且,加上自那时以来救生技术和实践得到改善的合理假设,这是否意味着我今天幸存这种情况的机会甚至可能超过90%?凉!;-)
唐·哈奇

这些评论超出了最初的描述性目标。
Frank Harrell '18

您确定目标正确吗?显然,问题在于这些有关真正的《泰坦尼克号》的陈述是否有用,实际上,这对做出预测并没有多大用处,因为自那时以来发生了很多变化。因此,似乎您的启发式方法在抛出第一个实际示例时失败了,不是吗?那似乎不是一个好的开始。在另一方面,也许是OP预期泰坦尼克问题是适用于当前的情况相同形式的一般问题的代理具有预测意义; 我不知道。
唐·哈奇

1
正如我在《回归建模策略》一书中详细讨论过TItanic乘客的生存概率的案例研究一样,发现发生的事情也具有很大的价值。我不使用该逻辑模型的预测概率来预测未来的《泰坦尼克号》,而是在救生艇选择过程中发现模式。
弗兰克·哈雷尔

6

第一个表明,挽救妇女可能是重中之重(无论是否挽救男性)

“优先级”一词来自拉丁语,表示“之前”。优先级是先于其他事物(在“更重要”的意义上使用“之前”)。如果说拯救女性是当务之急,那么拯救女性就必须先于其他事情。自然而然的假设是,这将拯救人类。如果您说“不管是否有救助人”,那么我们就想知道它是怎么来的。

如果我们不知道一般的生存率是多少,那么妇女的生存率就不高了。我乘坐的最后一艘船上,有90%以上的妇女幸存下来,但我并没有把拯救妇女列为重中之重。

要知道幸存者中女性所占的比例就不多说了。

哪种统计更有用,实际上取决于情况。如果您想知道某事有多危险,死亡率就更为重要。如果您想知道什么会影响事物的危险性,那么造成人员伤亡的百分比细分很重要。


2
很好的批评:-)“我上的最后一艘船上,超过90%的妇女得以幸存,但我并没有把拯救妇女列为重中之重。当然可以,与将它们倾倒在船上相比,它具有更高的优先级!当然,这是对“高优先级”的荒谬解释,但是由于OP排除了“比救助人优先级更高”的解释,因此我们所剩下的就是荒谬的解释。
唐·哈奇

3

研究这些概率之间的关系可能对我们很有用。

为一个人是一个女人的事件,而令S为一个人幸存的事件。WS

陈述1:

P(S|W)=0.9

陈述2:

P(W|S)=0.9

贝叶斯定理说明了这些概率陈述之间的关系。

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)


3
与您的结论相反,我还要说的是,如果既不知道P(S),也不知道P(W),那么P(S | W)和P(W | S)都会遭受同样令人沮丧的缺乏实用性的困扰。我尚不清楚如果确切知道P(S)和P(W)中的一个可以说什么。
唐•哈奇

P(W)=0.5

1
是的,这看起来是正确的,而且据此判断似乎是,即使如此,该信息也仍然严重不足。我必须说,每当我开始考虑可以从P(W | S)或P(S | W)提取什么信息,甚至加上P(W)或其他任何信息时,我最终都会想到“为什么在地球上我在想这个吗?为什么他们只给我这些百分比?只给我看整个桌子
唐·哈奇

3

这取决于人们认为有用的东西。

P(S|W)>P(S|M)

另一方面,如果您想知道为什么幸存者的故事主要来自女性,那么陈述2可以解释这一点,即使在没有其他信息的情况下,陈述2也很有用。

我想不出任何陈述1对于上下文无关有用。与其他任何事情相比,它当然没有说要优先考虑拯救妇女。陈述1对我唯一要做的就是使我说“告诉我更多”。


0

从表面上(或与现实隔离),这两种陈述对于国家目标似乎都是无用的。但是,考虑到上下文,第二条语句显然更有用。

陈述2

w

w=px/(px+(1p)z)
pxz

H0:x>z

H0

(1w)px=w(1p)z
x=w(1p)z/((1w)p)
H0
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

p1/2

陈述1

x=0.9zx>z

xz

p1/2px+(1p)zxzp1/2

px+(1p)zx=0.9
x>>z

结论

我要说的是,这两种说法都支持您的假设,即女性比男性更有可能生存,但是陈述1的表现则微弱,而陈述2与假设的结合几乎可以肯定您的假设是事实。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.