为什么1个中位数低于另一个中位数的事实并不意味着第1组中的大多数都少于第2组中的大多数?
我认为下面的箱线图可以解释为“大多数男人比大多数女人快”(在此数据集中),主要是因为中位男性的时间低于中位女性的时间。但是有关R和统计知识测验的EdX课程告诉我,这是不正确的。请帮助我理解为什么我的直觉是不正确的。 这是问题: 让我们考虑一个2002年纽约马拉松比赛的完成者的随机样本。可以在UsingR包中找到此数据集。加载库,然后加载nym.2002数据集。 library(dplyr) data(nym.2002, package="UsingR") 使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述差异? 男性和女性具有相同的分布。 大多数男性比大多数女性快。 男性和女性的偏斜分布与前者相似,向左偏移20分钟。 两种分布的正态分布均相差约30分钟。 以下是纽约市男女马拉松比赛时间,以分位数,直方图和方框图的形式: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833