如何用极端离群值呈现箱形图?


17

我可以使用有关呈现某些数据的指导。

第一个图是细胞因子IL-10的病例对照比较。我已手动将y轴设置为包括99%的数据。

IL-10带手动Y轴

我之所以手动设置,是因为案例组具有极端的异常值。 有离群值

我的合作者不愿对我们的数据集进行异常值移除。我可以接受,但他们宁愿不接受。那将是显而易见的解决方案。但是,如果我要保留所有数据而不是删除此异常值,那么如何最佳显示此箱线图?分割轴?仅使用第一个图并注意它被构造为包含所有数据是否可以接受?(此选项对我来说是不诚实的)。任何建议都很好。


5
为什么不同时显示两个图?
Alexis 2014年

Answers:


24

我想说的是,使用此类数据时,您确实需要以转换的比例显示结果。这是第一个当务之急,也是比如何精确地绘制箱形图更为重要的问题。

但是,我赞同弗兰克·哈雷尔(Frank Harrell)的观点,他呼吁人们提供一些比最小箱形图更具启发性的信息,即使发现了一些极端点。您有足够的空间来显示更多信息。这是许多示例之一,混合框和分位数图。就像您的数据一样,有两组被比较。

在此处输入图片说明

我将一一理解这两点,然后再说更多。

转换比例

在最简单的情况下,您所有的值都可能为正,然后应首先尝试使用对数刻度。

如果您有精确的零,则平方根或立方根比例仍将改善极端偏斜度。有些人对log(value + constant)很满意,其中log最常为1,作为应对零的一种方法。

使用变换比例的箱形图的含义很微妙。

如果使用通用的Tukey惯例,即单独显示超出上四分位数+ 1.5 IQR或下四分位数-1.5 IQR的所有点,那么可以说这些限制应在变换后的比例尺上计算。这是一样的计算上原有规模界限,然后转化。

相反,我会支持为晶须末端选择分位数的少数惯例。这样做的几个优点之一是分位数的变换=变换的分位数,在大多数情况下至少足够接近于图形用途。(小的字样是每当通过相邻阶统计量之间的线性插值计算分位数时。)

克利夫兰(1985)相当突出地提出了这种分位数惯例。为了进行记录,地理学和气候学使用了增强的箱形图,其中箱形到四分位数,较薄的箱形到外八分形(分别为12.5和87.5%点)和条形图数据,例如,Matthews(1936)和Grove(1956)名称为“色散图”。

超过箱形图

方块图是图基在1970年左右重新发明的,在他的1977年的书中最明显地得到了推广。他的主要目的是推广可以在非正式探索中使用钢笔和纸快速绘制的图形。他还提出了识别可能的异常值的方法。很好,但是现在我们所有人都可以使用计算机,可以绘制图形来显示(如果不是全部的话)显示至少更多的细节。箱形图的总结作用是有价值的,但是图形也可以显示精细的结构,以防万一它很有趣或很重要。(而且研究人员认为无趣或不重要的内容可能会让他们的读者大吃一惊。)

对于到底哪种方法最有效,有足够的礼让意见分歧,但是在我看来,裸箱图已经超卖了。

Stata用户可以在此Statalist帖子中找到有关绘制该图的程序的更多信息。使用其他软件的用户可以毫不费力地绘制出更好或更好的东西(否则为什么要使用该软件?)。

克利夫兰,WS1985。图形数据元素。 加利福尼亚蒙特雷:Wadsworth。

格罗夫,1956年。尼日利亚的土壤侵蚀。在《钢铁》,《 RW》和《美国加利福尼亚州费舍尔》(EDS)中, 关于英国热带土地的地理论文。 伦敦:乔治·菲利普(George Philip),79-111。

马修斯,医管局1936年。一些熟悉的印度降雨的新观点。 苏格兰地理杂志 52:84-97。

Tukey,JW,1977。探索性数据分析。马萨诸塞州雷丁:Addison-Wesley。


1
我以前从未见过箱形图和ECDF并列的情况。真酷!您如何将两个ECDF放在一个单独的面板中?
弗兰克·哈雷尔

2
@弗兰克·哈雷尔谢谢。覆盖也是一个好主意。有关我工作中的一些示例,请参见例如stata-journal.com/sjpdf.html?articlenum=gr0018
尼克·考克斯

14

不要错过Nick的出色回答,我认为这很值得一tick而过,但我想探索一些可能性。

由于数据跨越几个数量级的严重倾斜,通常可以很好地揭示出对数标度。请注意,您仍然可以在原始值中包含刻度线和刻度线标签。(我同意尼克关于转换的观点,因此在此不再赘述。)

除了变换之外,另一个选择是做类似第二个图的操作,但是要包括未绘制的所有值的指示:

  在此处输入图片说明

这样,您就不会删除异常值,而只是以不同的方式显示它们。

但是,我会与Frank和Nick一起建议使用比普通箱线图更多的信息显示-箱形图与Nick帖子中的分位数图的组合似乎是一个特别好的概念,尽管可能会在(或下方)绘制分位数图,如此处所示)对应的框,而不是旁边的框:

  在此处输入图片说明

如果您不做这样的事情(例如,仅使用普通的箱形图),那么我建议您使用窄得多的箱形。


3
分位数和箱形图的叠加也很有吸引力。它强调了箱形图是分位数图的简化,尽管在某些情况下,箱形图可能显得多余。要重点强调两个图之间的关系,请参见Parzen,E.1979。非参数统计数据建模。 美国统计协会杂志 74:105-121
Nick Cox

你有OP的数据集吗?还是您正在抓图/伪造图?
Nick Cox

2
@Nick基本上只是假装;我有效地刮掉了极端点(仅手工操作,只有很少的点),然后通过从已知值(3个四分位数和最小值)之间的3个制服采样,以及在上四分位数和末尾之间采样来生成低于上四分位数的值指数的上胡须,然后加上极点(只是这样我的箱形图看起来很相似)。至少那是主意。极端点将不准确,因此我绘图上的打印值更像示例。
Glen_b-恢复莫妮卡2014年

@Glen_b如果您愿意,我可以问一个单独的问题,但是您使用哪种方法将分位数图与boxplot覆盖在一起?
Tavrock

@Tavrock我写那已经两年半了,所以我猜。显而易见的事情是调用points以显示分位数值(它看起来像xs=sort(x); points(ppoints(xs),xs)箱形图之后的线,但是仔细检查后,点在箱形图下方,因此可能是先绘制后是带add = TRUE的箱形图,或者可能是箱线图,然后指向顶部,然后是箱线图在顶部...也许
Glen_b-恢复莫妮卡

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.