箱形图提供的直方图没有提供哪些信息?


13

直方图可以很好地理解变量的分布。箱形图试图做同样的事情,但是,并不能很好地说明这个变量的分布情况。

我不明白为什么人们使用箱形图。直方图在各个方面都更好。我有理由同时使用它们吗?

我认为箱形图提供的唯一内容是:离群值!它告诉我们哪些观测值可能是异常值。


1
直方图在各个方面是否比整个分布的表示更糟?
Anthony Martin

2
根据您想要的内容,使用箱形图可以得到一些直方图所没有的精确值(例如,中位数,P75)。它显示的信息较少,但是综合性更高。我的观点是,与整个分布相比,即使是直方图也只是简化和浪费信息。但它更容易使用
Anthony Martin

2
stats.stackexchange.com/a/51753(可在我们的网站上搜索“直方图”找到该文章)中,有关直方图实用性的相反观点已被有力地表达和充分说明。
ub

3
有趣的想法-但是增加bin的大小会使直方图减小为箱形图,同时保留其对切点选择的不幸依赖。恕我直言,通过研究Tukey使用N字母摘要进行多变量数据的探索性分析并记住他当时使用铅笔和纸进行计算,可以最好地理解箱形图的真正优点。对于像“徘徊的原理图轨迹”这样的可视化,条件响应的其他单变量摘要(如直方图或小提琴图)根本行不通。
ub

1
当样本很少或包装盒尺寸错误时,会发生直方图的两个失败(imo)。一个好的箱形图的弱点(我说的是JMP可变性)是多模式的,而且细节也很精细。箱图发光的一个地方是样本很少。当存在许多不同级别的交互变量时,我也喜欢它-因此,JMP变异图。
EngrStudent-恢复莫妮卡

Answers:


16

在某些情况下,箱形图提供了分布的更多摘要这一事实也可以视为一种优势。有时,当我们比较分布时,我们并不关心整体形状,而是关注分布在彼此之间的位置。并排绘制分位数可能是一种有用的方法,而不会分散我们可能不在意的其他细节。


1
这是最好的答案。与直方图相比,箱线图更适合比较分布!
kjetil b halvorsen

14

在单变量情况下,箱形图确实提供了一些直方图没有(至少没有明确显示)的信息。也就是说,它通常提供中值,第25和第75个百分位数,最小值/最大值,而不是离群值,并明确分隔认为离群值的点。所有这些都可以从直方图中“被盯上”(在离群值的情况下可能更适合被盯上)。

但是,更大的优势是可以一次比较多个不同组之间的分布。对于10个以上的组,这并排的直方图是一项艰巨的任务,但使用箱形图非常容易。

正如您所提到的,小提琴图(或豆图)是更有用的选择。但是,它们需要比箱形图略多的统计知识(即,如果向非统计受众展示,可能会更令人生畏),箱形图的长度比核密度估计器长得多,因此,它们的知名度更高。


3
+1。虽然进行了校正,但箱线图提供的是中位数,而不是平均值。
Greenparker

3
每个人都可以是对的。通常绘制的箱形图显示了中位数(我已经看到了这一点,但我不记得看到过一个例子)。但是某些实现也允许您显示均值。这通常是个好主意。
尼克·考克斯

感谢您指出了这一点。我一直(不正确地)认为这通常是均值,在极端情况下可能会导致一些非常奇怪的图。
Cliff AB

1
如果有图像一起显示
方框图

7
  1. 如果我给您显示一个直方图并询问您中位数在哪里,您可能需要花费很多时间来找出它……然后您只会得到它的近似值。如果我对箱线图进行同样的操作,您将立即拥有它。如果您对此感兴趣,那么箱线图显然会赢。

  2. 我同意,箱线图不如描述单个样本的分布那样有效,因为它们将样本减少到几个点,而且并不能告诉您很多。

    但是,如果要比较许多分发,则拥有每个分发的所有详细信息可能比容易比较的信息更多-您可能希望将信息减少为要比较的内容。

  3. 如果更多的信息更好,那么还有很多比直方图更好的选择。例如,茎叶图或ecdf /分位数图。

    或者,您可以将信息添加到直方图中:

带边线箱图的直方图 带抖动的直方图 带状图的直方图

此答案的图表)

其中第一个-在边距上添加一个狭窄的箱形图-使您从任何一种显示中都能获得任何好处。


1

条形图仅提供观察频率的范围,而箱形图则更好地表明分布的几个参数位于何处,例如均值和条形图无法显示的方差。因此,如果有多个分布,则箱形图可用作有效的比较工具。


箱形图很少显示均值-几乎总是使用中位数-而且它们从不直接代表方差。还要注意,这些量通常不被视为“分布的参数”:它们是一批数据的描述性统计量
ub

确实,它们是描述分布而无需进行过多计算的好工具。而且它们显示的中位数更多,并且由于在很多情况下两个度量值均重合,因此箱形图也是近似均值的好工具。
Shiv_90 '17

您的评论似乎继续使数据基础分布混淆。在任何一批数据中,均值等于中位数的情况很少见。此外,箱形图的更好和最常见的用途之一是识别不对称性,这通常意味着均值和中位数之间存在重要差异。箱形图原始概念背后的基本原理之一是,它是一个强大的探索工具-这意味着它最好不要基于均值或方差之类的敏感统计信息。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.