为什么1个中位数低于另一个中位数的事实并不意味着第1组中的大多数都少于第2组中的大多数?


9

我认为下面的箱线图可以解释为“大多数男人比大多数女人快”(在此数据集中),主要是因为中位男性的时间低于中位女性的时间。但是有关R和统计知识测验的EdX课程告诉我,这是不正确的。请帮助我理解为什么我的直觉是不正确的。

这是问题:

让我们考虑一个2002年纽约马拉松比赛的完成者的随机样本。可以在UsingR包中找到此数据集。加载库,然后加载nym.2002数据集。

library(dplyr)
data(nym.2002, package="UsingR")

使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述差异?

  1. 男性和女性具有相同的分布。
  2. 大多数男性比大多数女性快。
  3. 男性和女性的偏斜分布与前者相似,向左偏移20分钟。
  4. 两种分布的正态分布均相差约30分钟。

以下是纽约市男女马拉松比赛时间,以分位数,直方图和方框图的形式:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

男性和女性时代-直方图

男性和女性时代-箱线图


为了直观地检查相同的分布,直方图应使用相同的x域和bin,而y轴应显示相对频率。箱带大小将受益于更高的粒度,例如25或50分钟。此外,在箱线图和直方图上,绘制中位数(已在箱线图中),均值和众数。
g3o2

{03}{2}0.5PX>ÿ>0.5

Answers:


7

我认为您被标记为不正确的原因并不是因为您对多项选择题给出的答案是错误的,而是选项3“男性和女性与前者的右偏分布相似,向左偏移20分钟”会是一个更好的选择,因为根据所提供的信息它可以提供更多信息。


我同意这个解释。而且,“比大多数人最快”是如此含糊。尽管@glen_b给出了答案,但我希望这种语言在箱形图中有更多的分隔。就像“ 75%的男性都快于75%的女性”一样,我认为这将转化为男性时代的75%低于女性时代的25%。但是语言是模棱两可的。
Sal Mangiafico

1
同样,这遵循了多项选择测试的原则:始终选择最佳答案。
Sal Mangiafico

这很有道理;并不是说另一个选择是错误的,而是正确的选择(“男性和女性的偏斜分布相似,前者偏左,偏左20分钟。”)是正确的。但是,我不太清楚直方图中的20分钟变化;对我来说似乎更像是50分钟一班。因为我有两次机会,所以我得到了正确的问题,FWIW :-)。
小茴香

@cumin:我不确定这是否正确。“大多数男人比大多数女人快”对于“大多数”的含义含糊不清-我不相信我见过严格的定义,直觉上通常超过50%(也许超过70%?) 。如果他们说“多数”,那么也许会更清楚。
user541686

9

这是我能找到的最小的反例:

1,4,10;  B 0,6,9

  • A[1, 4, 10])B[0, 6, 9])具有相同的平均值(5

  • B的中位数(6)比A4)大

  • 随机A元素大于随机B元素的可能性为5/9 。

这是另一个包含4个元素的示例:

一个1,1,3,10;  B 0,0,6,9


7

P中号一世<FĴ>1个2一世Ĵ中号一世一世

当然,对该短语的其他解释也是可能的(毕竟这就是歧义),而其他一些可能性可能与您的推理相符。

[我们还有一个问题,我们是在谈论样本还是人口。...“大多数男人[...]大多数女人”似乎是一个人口声明(大约是潜在时间的人口),但是我们只观察了时间我们似乎将其视为一个样本,因此我们在提出索赔的范围上必须谨慎。]

P中号一世<FĴ>1个2中号<F

[我不是说你在以为随机MF对其中的人比女人更快的比例超过1/2 -你几乎肯定是正确的。我只是说您无法通过比较中位数来说明这一点。您也无法通过查看每个样本中另一个样本中位数以上或以下的比例来说明这一点。您必须进行其他比较。]

1个2


例:

数据集A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

数据集B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

数据集C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(数据在这里,但是在那里被用于其他目的-回忆起我自己生成了这个)

请注意,A <B的比例为2/3,A <C的比例为5/9,B <C的比例为2/3。A对B和B对C的显着性水平均为5%,但只要添加足够数量的样本,我们就可以达到任何显着性水平。我们甚至可以通过复制样本但添加足够小的抖动(足够小于点之间的最小间隙)来避免联系。

样本中位数朝另一个方向:中位数(A)>中位数(B)>中位数(C)

同样,通过重复样本,我们可以对中位数进行比较(达到任何显着性水平),从而获得显着性。

样品A,B和C的带状图,中位数标记为与中位数相反的方向显示P(A <B)等

为了将其与当前问题联系起来,假设A是“女性时代”,B是“男性时代”。那么男人的中位数时间会更快,但是随机选择的男人会比随机选择的女人慢2/3的时间。

从样本A和C中得到线索,我们可以生成更大的数据集(在R中),如下所示:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

F的中位数约为16.25,而M的中位数约为11.25,但F <M的情况的比例为5/9。

[如果我们将n / 3替换为参数的二项式变量ñ1个3

PF<中号=23P中号>F=23中号<F


我可以看到这些方法如何朝相反的方向发展,但是我承认我的直觉与OP的想法是一致的。我没有看到中位数如何(除了抽样误差的问题)。
gung-恢复莫妮卡

@gung我提供了一个示例。我喜欢以此方式挑刺我的直觉-通过找到反例来反驳它们。如果我遇到更多(我相信我还有其他地方),我会尝试提及它们。
Glen_b-恢复莫妮卡

原始问题中的箱线图显示,大约60-65%的男性(通过眼球)的时间少于女性的平均时间(即小于女性的50%的时间)。这就是我想解释的部分。
小茴香

P一个一世<CĴ一世Ĵ

3
我将“大多数男人比大多数女人快”一词解释为“至少50%的男人快于至少50%的女人”。换句话说:给定男人X,问X是否比女人的50%快是有意义的。对我而言,索赔要求说至少有50%的男人拥有此财产。如果中位男人比中位女人快,这(我认为)是正确的,因为50%的男人会比中位男人快,后者比中位女人快,中位女人快于女性的50%。(但是请注意,这只涵盖了25%的男女对,我想这可以解释您的榜样。)
mathmandan

3

下图摘自该博客文章,它说明了这些想法的重要实际应用。

标准化为比较2个分布提供了强大的工具。以下3个数字比较了来自英国国家儿童测量计划(NCMP)的130个月大的男孩和女孩的身高。(这是该数据集中的模态年龄;我选择它只是为了在单个年龄组内获得最多的数据,因此获得最平滑的图。)

图1:来自英格兰国家儿童测量计划(NCMP)的130个月大的男孩和女孩的身高

图1:来自英格兰国家儿童测量计划(NCMP)的130个月大的男孩和女孩的身高

图2:130个月大的男孩和女孩的身高百分比。 资料来源:英文NCMP

图2: 130个月大的男孩和女孩的身高百分比。资料来源:英文NCMP

图3:130个月大的女孩相对于同龄男孩的身高分布。

图3: 130个月大的女孩相对于同龄男孩的身高分布。

在这些数字的最后,身高比较已根据男孩的身高进行了标准化。因此,沿着图3中的灰色虚线阅读,您可以进行如下声明:

  • 男孩的中位数身高(即百分之五十)仅占女孩的百分之四十五。因此,100%– 45%= 55%的女孩比中位数男孩高。
  • 女童的前四分位高度(第75个百分位)达到男童的前五分位(第80个百分位)。因此,在130 mos的儿童中,一个女孩的身高比4个女孩中的3个还高出5个男孩中的4个。

值得一提的是,在这一情节中可能会造成混乱。尽管在图中,男孩的45°线比女孩的洋红色曲线“高”,但这一观察结果符合一个众所周知的事实,即在这个年龄段(这是6年级学生),女孩通常比男孩高。 。请注意,这种高度可以正确地反映为洋红色曲线相对于蓝线向右移动。

001个1个

您现在可以用几何学的术语来重述您的原始问题,这是一个有关您是否可以绘制图3的洋红色曲线的问题,以便同时实现(a)中位数之间的假定关系和(b)@Glen_b的难以捉摸的关系(我相信)阐明了他的回答。我想知道分布不连续性(密度中的点质量)是否可能提供“病理性”情况。我猜想任何这样的病理情况都是“证明规则的例外”。


XX具有此属性。因此,测验问题的答案是肯定的

另一方面,如果“多数”的实际意图是“> 50%”,则可能希望使用更精确的短语“多数”。如果有人告诉我某事“可能”发生,我认为主观概率被指为60%或更高。同样,“最多”对我来说意味着大约70-80%。显然,从上图可以看出,如果以“最高”为严格标准,而不是52.5%,那么您就不能说“大多数女孩[具有他们的特性]比大多数男孩更高”。我不知道测验问题的部分原因是否在于激发对与数字概念有关的单词的检查。(如果您认为这有点愚蠢,请考虑以下图表(表明人们倾向于解释不同的概率词和短语。)也许是为了强调这一点,即现实世界中的分布存在很多差异,并且只有一个统计量(中位数,均值,均值,您)很少会支持广泛而笼统的陈述。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.