Answers:
我想说的是,使用此类数据时,您确实需要以转换的比例显示结果。这是第一个当务之急,也是比如何精确地绘制箱形图更为重要的问题。
但是,我赞同弗兰克·哈雷尔(Frank Harrell)的观点,他呼吁人们提供一些比最小箱形图更具启发性的信息,即使发现了一些极端点。您有足够的空间来显示更多信息。这是许多示例之一,混合框和分位数图。就像您的数据一样,有两组被比较。
我将一一理解这两点,然后再说更多。
转换比例
在最简单的情况下,您所有的值都可能为正,然后应首先尝试使用对数刻度。
如果您有精确的零,则平方根或立方根比例仍将改善极端偏斜度。有些人对log(value + constant)很满意,其中log最常为1,作为应对零的一种方法。
使用变换比例的箱形图的含义很微妙。
如果使用通用的Tukey惯例,即单独显示超出上四分位数+ 1.5 IQR或下四分位数-1.5 IQR的所有点,那么可以说这些限制应在变换后的比例尺上计算。这是不一样的计算上原有规模界限,然后转化。
相反,我会支持为晶须末端选择分位数的少数惯例。这样做的几个优点之一是分位数的变换=变换的分位数,在大多数情况下至少足够接近于图形用途。(小的字样是每当通过相邻阶统计量之间的线性插值计算分位数时。)
克利夫兰(1985)相当突出地提出了这种分位数惯例。为了进行记录,地理学和气候学使用了增强的箱形图,其中箱形到四分位数,较薄的箱形到外八分形(分别为12.5和87.5%点)和条形图数据,例如,Matthews(1936)和Grove(1956)名称为“色散图”。
超过箱形图
方块图是图基在1970年左右重新发明的,在他的1977年的书中最明显地得到了推广。他的主要目的是推广可以在非正式探索中使用钢笔和纸快速绘制的图形。他还提出了识别可能的异常值的方法。很好,但是现在我们所有人都可以使用计算机,可以绘制图形来显示(如果不是全部的话)显示至少更多的细节。箱形图的总结作用是有价值的,但是图形也可以显示精细的结构,以防万一它很有趣或很重要。(而且研究人员认为无趣或不重要的内容可能会让他们的读者大吃一惊。)
对于到底哪种方法最有效,有足够的礼让意见分歧,但是在我看来,裸箱图已经超卖了。
Stata用户可以在此Statalist帖子中找到有关绘制该图的程序的更多信息。使用其他软件的用户可以毫不费力地绘制出更好或更好的东西(否则为什么要使用该软件?)。
克利夫兰,WS1985。图形数据元素。 加利福尼亚蒙特雷:Wadsworth。
格罗夫,1956年。尼日利亚的土壤侵蚀。在《钢铁》,《 RW》和《美国加利福尼亚州费舍尔》(EDS)中, 关于英国热带土地的地理论文。 伦敦:乔治·菲利普(George Philip),79-111。
马修斯,医管局1936年。一些熟悉的印度降雨的新观点。 苏格兰地理杂志 52:84-97。
Tukey,JW,1977。探索性数据分析。马萨诸塞州雷丁:Addison-Wesley。
不要错过Nick的出色回答,我认为这很值得一tick而过,但我想探索一些可能性。
由于数据跨越几个数量级的严重倾斜,通常可以很好地揭示出对数标度。请注意,您仍然可以在原始值中包含刻度线和刻度线标签。(我同意尼克关于转换的观点,因此在此不再赘述。)
除了变换之外,另一个选择是做类似第二个图的操作,但是要包括未绘制的所有值的指示:
这样,您就不会删除异常值,而只是以不同的方式显示它们。
但是,我会与Frank和Nick一起建议使用比普通箱线图更多的信息显示-箱形图与Nick帖子中的分位数图的组合似乎是一个特别好的概念,尽管可能会在(或下方)绘制分位数图,如此处所示)对应的框,而不是旁边的框:
如果您不做这样的事情(例如,仅使用普通的箱形图),那么我建议您使用窄得多的箱形。
points
以显示分位数值(它看起来像xs=sort(x); points(ppoints(xs),xs)
箱形图之后的线,但是仔细检查后,点在箱形图下方,因此可能是先绘制后是带add = TRUE的箱形图,或者可能是箱线图,然后指向顶部,然后是箱线图在顶部...也许
我更喜欢扩展箱形图或小提琴图,因为它们包含了更多的信息。我将扩展箱形图按比例缩放到合并样本的0.01和0.99分位数。有关详细信息,请参见http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf。