如何解释缺口箱图


11

在进行一些EDA时,我决定使用箱形图来说明一个因子的两个水平之间的差异。

该方法ggplot呈现箱形图是令人满意的,但是稍微简单化(下图1图)。在研究箱形图的特性时,我开始尝试刻槽。

我知道,缺口在中位数附近显示CI,并且如果两个框的缺口不重叠,则有“有力的证据”(置信水平为95%)表明中位数有所不同。

在我的情况下(第二幅图),槽口没有有意义的重叠。但是,为什么盒子右侧的底部采用这种奇怪的形式呢?

在小提琴图中绘制相同的数据并不会表明相应小提琴的概率密度有任何异常。

图1箱线图

图2缺口箱图


1
在您的ggplot代码中,应该使用fill = factor(am),因为当前am被用作数字变量。
rnso 2015年

那是个好地方@rnso
RDJ 2015年

任何人都可以发布原始数据吗?我想它们来自标准的沙盒ggplot2。我也喜欢绘制单个数据点的想法,但是,只要使暗盒中的点不可见,就感到沮丧。
尼克·考克斯

Answers:


18

在我的情况下(第二幅图),槽口没有有意义的重叠。但是,为什么盒子右侧的底部采用这种奇怪的形式呢?我该怎么解释?

它表示第25个百分位数约为21,第75个百分位数约为30.5。缺口的上限和下限分别为18和27。

一个常见的原因是您的分布偏斜或样本量较小。缺口的边界基于:

median±1.57×IQRn

如果中位数和第25个百分位数之间的距离以及中位数和第75个百分位数之间的距离有很大差异(如右侧的百分位数)和/或样本量较小,则陷波范围会更宽。如果其宽度足够使缺口边界比第25个百分位数和第75个百分位数(即方框)更极端,则缺口箱图将显示此“由内而外”的形状。


1
非常感谢您的详细说明。让我问一下,为什么凹口的上限和下限是大约17和24,而不是大约18和27(在右侧方框图中)?
丹尼斯

@Denis,感谢您抓住这一点。我已经修改了。
Penguin_Knight
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.