在进行一些EDA时,我决定使用箱形图来说明一个因子的两个水平之间的差异。
该方法ggplot呈现箱形图是令人满意的,但是稍微简单化(下图1图)。在研究箱形图的特性时,我开始尝试刻槽。
我知道,缺口在中位数附近显示CI,并且如果两个框的缺口不重叠,则有“有力的证据”(置信水平为95%)表明中位数有所不同。
在我的情况下(第二幅图),槽口没有有意义的重叠。但是,为什么盒子右侧的底部采用这种奇怪的形式呢?
在小提琴图中绘制相同的数据并不会表明相应小提琴的概率密度有任何异常。
1
在您的ggplot代码中,应该使用fill = factor(am),因为当前am被用作数字变量。
—
rnso 2015年
那是个好地方@rnso
—
RDJ 2015年
任何人都可以发布原始数据吗?我想它们来自标准的沙盒
—
尼克·考克斯
ggplot2
。我也喜欢绘制单个数据点的想法,但是,只要使暗盒中的点不可见,就感到沮丧。