箱形图的历史如何?“箱形和晶须”设计是如何演变的?


19

许多消息来源至今经典的“箱线图”的设计,以约翰杜克和他的“示意图表”的1970年的设计似乎从那时起已经保持相对静态的,爱德华·塔夫特的删节箱形图的版本没有流行开来,而小提琴图 -尽管盒式图的信息更丰富-仍然不那么受欢迎。克利夫兰关于胡须延伸至第10和第90个百分位数的建议有一些支持者,请参阅Cox(2009),但这不是常态。

哈德利·威克汉姆(Hadley Wickham)和丽莎·斯特里耶夫斯基(Lisa Stryjewski)撰写了关于盒式积木历史的未发表论文,但似乎没有涵盖盒式积木的历史先驱。

那么,当前无处不在的“盒子和胡须”情节是如何产生的呢?它从什么样的数据可视化发展而来,那些早期的设计是否具有显着的优势,为什么图基的方案在使用中似乎使它们显得如此全面?图示的答案将是一个加分法,但针对比Wickham和Stryjewski更深入的历史参考将是有用的。

参考文献

  • 新泽西州考克斯(2009)。讲故事的状态:创建和改变箱形图。Stata Journal,9(3),478。
  • Wickham,H.和Stryjewski,L.(2011)。40年的箱线图。http://vita.had.co.nz/papers/boxplots.pdf

1
一些前体这里有些相关的讨论:stats.stackexchange.com/questions/125521/... ...杜克知道玛丽·斯皮尔斯的工作,但也有可能他可能没有看到任何与先前的的
Glen_b -Reinstate莫妮卡

感谢@Glen_b,确实是我阅读的讨论激发了这个问题,但我花了4年时间才提出这个问题,而我无法追踪讨论内容!(不幸的是,评论没有出现在站点搜索中,因此设法进行正确的问答会有所帮助。)
Silverfish

1
我使用带有site:stats.stackexchange.com设置的Google搜索来跟踪评论中的内容。我能够记住足够多的细节(那是Nick和我之间关于盒装图的讨论,我提到过Schmid)使它一炮打响。
Glen_b-恢复莫妮卡

1
Q11.5IQRQ3+1.5IQR3IQRn.2.25IQR

1
github.com/hadley/boxplots-paper包含很多内容,例如杂志上的匿名审阅者报告(?_American Statistician _)(简短而令人沮丧)以及David Hoaglin和我本人进行的独立但不请自来的评论(两者都更为详细)。
尼克·考克斯

Answers:


18

首席执行官摘要

历史比许多人想象的要长得多,也更复杂。

执行摘要

Tukey称为箱形图的历史与现在通常称为点或带状图(数十个其他名称)的历史以及经验分位数函数的表述交织在一起。

约翰·怀尔德·图基(John Wilder Tukey)(1970,1972,1977)的工作最广为人知。

但是将中位数和四分位数显示为基本摘要的想法-经常但不总是带有点来显示所有值-至少可以追溯到地理学家Percy Robert Crowe(1933)引入的色散图(许多变体名称)。这些是地理学家的主要票价,并在1930年代末以来的许多教科书和研究论文中使用。

毕比(1986,pp.56,59)甚至更早地提到了亚瑟·里昂·鲍利(Arthur Lyon Bowley)(后来的亚瑟爵士)在其1897年的演讲中所讲的类似思想以及他的推荐(鲍利(Bowley),1910,第62页; 1952年,第73页)。 )以最小和最大以及10%,25%,50%,75%和90%的点作为图形摘要的基础。

显示极限和四分位数的范围条通常归因于Mary Eleanor Spear(1952),但在我看来,引用Kenneth W. Haemer(1948)的人很少。海默(Haemer)在1950年左右在《美国统计学家》上发表的有关统计图形的文章颇具创造力,而且具有批判性,仍然值得再次阅读。(许多读者可以通过jstor.org来访问它们。)相比之下,Spear的书(《 Spear 1969》是重新演说的)虽然易于理解,但具有意味性的介绍性意义,而不是创新性或学术性。

框线图的变体,其中晶须延伸到选定的百分位,比许多人似乎更普遍。同样,从1930年代开始,地理学家便使用了等效的地块。

Tukey版本箱形图中最原始的是首先要确定要分别绘制的尾部中的点的标准,并应将其识别为值得详细考虑的问题,并且经常会标出应在转换后的比例尺上分析变量。他的1.5 IQR经验法则是经过大量实验才出现的。它在某些方面已经变成了删除数据点的硬性规则,这从来不是Tukey的意图。一个活泼,令人难忘的名称-箱形图-不会对确保这些创意产生更大影响产生任何影响。相反,色散图是一个枯燥乏味的术语。

这里相当长的参考文献列表可能与外观相反,并不旨在详尽无遗。目的只是为箱形图的某些前体和替代方案提供文档。特定参考可能对详细查询或在您要接近的领域有用。相反,了解其他领域的实践可能是有益的。通常低估了地理学家的图形专业知识,而不仅仅是制图专业知识。

更多细节

Crowe(1933,1936),Matthews(1936),Hogg(1948),Monkhouse和Wilkinson(1952),Farmer(1956),Gregory(1963),Hammond和McCullagh(1974),Lewis(刘易斯(1933,1936),霍格(1948),蒙克豪斯和威尔金森(1952) (1975),Matthews(1981),Wilkinson(1992、2005),Ellison(1993、2001),Wild和Seber(2000),Quinn和Keough(2002),Young 等。(2006)以及Hendry和Nielsen(2007)等。另见Miller(1953,1964)。

克利夫兰(Cleveland(1985))强调了将晶须绘制到特定的百分位数,而不是四分位数的多个IQR中的数据点,但是绘制了互穿范围的Matthews(1936)和Grove(1956)则预料到了这一点。七分之一线,以及范围和四分位间距。Dury(1963),Johnson(1975),Harris(1999),Myatt(2007),Myatt and Johnson(2009、2011)和Davino等人(1996)。(2014年)显示了平均值以及最小值,四分位数,中位数和最大值。Schmid(1954)显示了汇总图,其中位数,四分位数分别为5%和95%。Bentley(1985,1988),Davis(2002),Spence(2007,2014)和Motulsky(2010、2014、2018)将晶须画得分别为5%和95%。Morgan and Henrion(1990,pp.221,241),Spence(2001,p.36)和Gotelli and Ellison(2004,2013,pp.72,110,213,416)将晶须绘制到10%和90%点。哈里斯(1999)给出了5%和95%以及10%和90%的例子。Altman(1991,pp.34,63)和Greenacre(2016)将晶须画出了2.5%和97.5%的分数。Reimann等。(2008年,第46-47页)将晶须绘制到5%和95%以及2%和98%的点。

Parzen(1979a,1979b,1982)将盒子图和分位数图混合为分位数盒图。还参见例如Shera(1991),Militký和Meloun(1993),Meloun和Militký(1994)。但是请注意,Keen(2010)的分位数箱形图只是一个将晶须延伸到极限的箱形图。相反,JMP的分位数箱形图显然是标记为0.5%,2.5%,10%,90%,97.5%,99.5%的箱形图:参见Sall 等。(2014,pp.143-4)。

这是分位数盒图变体的一些注释。

pp,1pp,1p

p,1p

从我看到的文献来看,似乎这些线程(分位数盒图或更高版本(A)(B)(C))都没有相互引用。

!!! 截至2018年10月3日,需要在下一次编辑中提供一些参考的详细信息。

奥特曼,DG,1991年。 医学研究中的实践统计。 伦敦:查普曼和霍尔。

Bentley,JL,1985年。《编程珍珠:选择》。 ACM 28的通讯:1121-1127。

Bentley,JL,1988年。 更多《编程珍珠:编码人员的自白》。 马萨诸塞州雷丁:Addison-Wesley。

Bibby,J.1986。 《教学统计史注解》。 爱丁堡:约翰·毕比(书籍)。

Bowley,AL1910。 统计学基础手册。 伦敦:麦克唐纳和埃文斯。(1952年第7版)

克利夫兰,WS1985。图形数据元素。 加利福尼亚蒙特雷:Wadsworth。

Crowe,PR 1933年。降雨概率分析:一种图形方法及其在欧洲数据中的应用。 苏格兰地理杂志 49:73-91。

克劳,PR,1936年。西部平原的降雨制度。 地理评论 26:463-484。

Davis,JC,2002年。《 地质统计与数据分析》。 纽约:约翰·威利(John Wiley)。

Dickinson,GC,1963年。 统计映射和统计信息。 伦敦:爱德华·阿诺德(Edward Arnold)。(1973年第二版)

杜里,GH,1963年 。东米德兰兹峰和山顶。 伦敦:托马斯·尼尔森。

农民,BH 1956年。锡兰干旱地区的降雨和供水。在《钢铁》,《 RW》和《加利福尼亚费舍尔(合编) 关于英国热带土地的地理论文》中。 伦敦:乔治·菲利普(George Philip),227-268。

Gregory,S.,1963年。《统计方法和地理学家》。 伦敦:朗文。(更高版本,1968年,1973年,1978年;后来发行的Longman)

格罗夫,1956年。尼日利亚的土壤侵蚀。在《钢铁》,《 RW》和《加利福尼亚费舍尔(合编) 关于英国热带土地的地理论文》中。 伦敦:乔治·菲利普(George Philip),79-111。

Haemer,KW,1948年。范围条形图。 美国统计学家 2(2):23。

亨德利,DF和B.尼尔森。2007。《 计量经济学建模:一种可能性方法》。 新泽西州普林斯顿:普林斯顿大学出版社。

Hogg,WH,1948年。降雨散布图:讨论其优缺点。 地理 33:31-37。

Ibrekk,H.和MG Morgan。1987年。向非技术人员进行不确定数量的图形通信。 风险分析 7:519-529。

约翰逊(BLC),1975年。 孟加拉国。伦敦:海涅曼教育。

Keen,KJ,2010年 。R. Boca Raton,佛罗里达:统计与数据分析图形:CRC出版社。(2018年第二版)

Lewis,CR1975。城市状况变化的分析:以中威尔士州和威尔士中部边疆地区为例。 英国地理学家学会学报 64:49-65。

Martinez,WL,AR Martinez和JL Solka。2011。 使用MATLAB进行探索性数据分析。 佛罗里达州Boca Raton:CRC出版社。

马修斯,医管局1936年。一些熟悉的印度降雨的新观点。 苏格兰地理杂志 52:84-97。

Matthews,JA,1981年。 《地理学的定量和统计方法:实用手册》。 牛津:佩加蒙。

Meloun,M.和J.Militký。1994年。分析化学计量学中的计算机辅助数据处理。I.对单变量数据的探索性分析。 化学论文 48:151-157。

Militký,J.和M. Meloun。1993年。一些用于单变量探索性数据分析的图形辅助工具。 Analytica Chimica Acta 277:215-221。

Miller,AA,1953年。 地球的皮肤。 伦敦:Methuen。(1964年第2版)

Monkhouse,FJ和HR Wilkinson。1952年。《 地图和图表:它们的编译和构造》。 伦敦:Methuen。(更高版本,1963年,1971年)

Morgan,MG和M.Henrion。1990年。 不确定性:量化风险和政策分析中不确定性处理指南。 剑桥:剑桥大学出版社。

Myatt,GJ,2007年。理解 数据:探索性数据分析和数据挖掘的实用指南”。 新泽西州霍博肯:约翰·威利。

Myatt,GJ和Johnson,WP2009。“理解 数据II:数据可视化,高级数据挖掘方法和应用程序实用指南”。 新泽西州霍博肯:约翰·威利。

Myatt,GJ和Johnson,WP2011。“理解 数据III:设计交互式数据可视化的实用指南”。 新泽西州霍博肯:约翰·威利。

Ottaway,B.1973。色散图:一种显示14号碳日期的新方法。 考古 15:5-12。

E.Parzen,1979年。非参数统计数据建模。 杂志,美国统计协会 74:105-121。

E.Parzen,1979年。鲁棒估计的密度分位数函数观点。在劳纳(Launer),RL和GN威尔金森(GN Wilkinson)编辑,《统计稳健性》。 纽约:学术出版社,第237-258页。

Parzen,E.1982。使用分位数和密度-分位数函数进行数据建模。在Tiago de Oliveira,J.和Epstein,B.(eds) 统计方面的一些最新进展。伦敦:学术出版社,第23-52页。

奎因(Quinn),GP和MJ基夫(MJ Keough)。2002年。 生物学家的实验设计和数据分析。 剑桥:剑桥大学出版社。

Reimann,C.,P。Filzmoser,RG Garrett和R.Dutter。2008年。《 统计数据分析说明:R。Chichester的应用环境统计 :John Wiley》。

Sall,J.,A。Lehman,M。Stephens和L. Creighton。2014年 。JMPStart Statistics:使用JMP进行统计和数据分析的指南。 北卡罗来纳州卡里:SAS研究所。

Shera,DM1991。分位数图的一些使用,以增强数据表示。 计算科学与统计 23:50-53。

Spear,ME,1952年。制图统计。 纽约:麦格劳-希尔。

Spear,ME,1969年。实用制图技术。 纽约:麦格劳-希尔。

Tukey,JW1970。
探索性数据分析。限量初版。第I卷 ,马萨诸塞州:Addison-Wesley。

Tukey,JW1972。一些图形和半图形显示。在TA的Bancroft和SA的Brown(编辑) 纪念George W. Snedecor的统计论文中。 爱荷华州艾姆斯:爱荷华州立大学出版社,293-316。(也可以从http://www.edwardtufte.com/tufte/tukey访问

Tukey,JW,1977。 探索性数据分析。 马萨诸塞州雷丁:Addison-Wesley。

Wild,CJ和GAF Seber。2000。 机会接触:数据分析和推理的第一门课程。 纽约:约翰·威利(John Wiley)。


我在箱形百分位数图,山地图和其他混合形式上有其他材料,将在以后添加。
尼克·考克斯

非常感谢这个答案,谢谢尼克-期待有关替代品和混合动力的更多内容。我认为说“箱形图”和“朋友”构成数据可视化的“家庭”可能是很公平的,尽管我不知道该称呼这个家庭
Silverfish '18

谢谢!如果拥有表示中位数和四分位数的线或其他标记来定义一个框,那么在Tukey命名它们之前很久就有框图了,我相信他从未声称过。但是,教科书和其他地方的许多微型历史似乎很重要。大多数情况下,这只是一个模因重复,没有证据表明像旅鼠因集体自杀而跳下悬崖。箱形图的许多替代方案甚至都没有显示出任何形式的框,因此该字段是开放的,可以包含任何单变量分布的图形表示。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.