直方图可以很好地理解变量的分布。箱形图试图做同样的事情,但是,并不能很好地说明这个变量的分布情况。
我不明白为什么人们使用箱形图。直方图在各个方面都更好。我有理由同时使用它们吗?
我认为箱形图提供的唯一内容是:离群值!它告诉我们哪些观测值可能是异常值。
直方图可以很好地理解变量的分布。箱形图试图做同样的事情,但是,并不能很好地说明这个变量的分布情况。
我不明白为什么人们使用箱形图。直方图在各个方面都更好。我有理由同时使用它们吗?
我认为箱形图提供的唯一内容是:离群值!它告诉我们哪些观测值可能是异常值。
Answers:
在某些情况下,箱形图提供了分布的更多摘要这一事实也可以视为一种优势。有时,当我们比较分布时,我们并不关心整体形状,而是关注分布在彼此之间的位置。并排绘制分位数可能是一种有用的方法,而不会分散我们可能不在意的其他细节。
在单变量情况下,箱形图确实提供了一些直方图没有(至少没有明确显示)的信息。也就是说,它通常提供中值,第25和第75个百分位数,最小值/最大值,而不是离群值,并明确分隔认为离群值的点。所有这些都可以从直方图中“被盯上”(在离群值的情况下可能更适合被盯上)。
但是,更大的优势是可以一次比较多个不同组之间的分布。对于10个以上的组,这并排的直方图是一项艰巨的任务,但使用箱形图非常容易。
正如您所提到的,小提琴图(或豆图)是更有用的选择。但是,它们需要比箱形图略多的统计知识(即,如果向非统计受众展示,可能会更令人生畏),箱形图的长度比核密度估计器长得多,因此,它们的知名度更高。
如果我给您显示一个直方图并询问您中位数在哪里,您可能需要花费很多时间来找出它……然后您只会得到它的近似值。如果我对箱线图进行同样的操作,您将立即拥有它。如果您对此感兴趣,那么箱线图显然会赢。
我同意,箱线图不如描述单个样本的分布那样有效,因为它们将样本减少到几个点,而且并不能告诉您很多。
但是,如果要比较许多分发,则拥有每个分发的所有详细信息可能比容易比较的信息更多-您可能希望将信息减少为要比较的内容。
如果更多的信息更好,那么还有很多比直方图更好的选择。例如,茎叶图或ecdf /分位数图。
或者,您可以将信息添加到直方图中:
(此答案的图表)
其中第一个-在边距上添加一个狭窄的箱形图-使您从任何一种显示中都能获得任何好处。
条形图仅提供观察频率的范围,而箱形图则更好地表明分布的几个参数位于何处,例如均值和条形图无法显示的方差。因此,如果有多个分布,则箱形图可用作有效的比较工具。