首席执行官摘要
历史比许多人想象的要长得多,也更复杂。
执行摘要
Tukey称为箱形图的历史与现在通常称为点或带状图(数十个其他名称)的历史以及经验分位数函数的表述交织在一起。
约翰·怀尔德·图基(John Wilder Tukey)(1970,1972,1977)的工作最广为人知。
但是将中位数和四分位数显示为基本摘要的想法-经常但不总是带有点来显示所有值-至少可以追溯到地理学家Percy Robert Crowe(1933)引入的色散图(许多变体名称)。这些是地理学家的主要票价,并在1930年代末以来的许多教科书和研究论文中使用。
毕比(1986,pp.56,59)甚至更早地提到了亚瑟·里昂·鲍利(Arthur Lyon Bowley)(后来的亚瑟爵士)在其1897年的演讲中所讲的类似思想以及他的推荐(鲍利(Bowley),1910,第62页; 1952年,第73页)。 )以最小和最大以及10%,25%,50%,75%和90%的点作为图形摘要的基础。
显示极限和四分位数的范围条通常归因于Mary Eleanor Spear(1952),但在我看来,引用Kenneth W. Haemer(1948)的人很少。海默(Haemer)在1950年左右在《美国统计学家》上发表的有关统计图形的文章颇具创造力,而且具有批判性,仍然值得再次阅读。(许多读者可以通过jstor.org来访问它们。)相比之下,Spear的书(《 Spear 1969》是重新演说的)虽然易于理解,但具有意味性的介绍性意义,而不是创新性或学术性。
框线图的变体,其中晶须延伸到选定的百分位,比许多人似乎更普遍。同样,从1930年代开始,地理学家便使用了等效的地块。
Tukey版本箱形图中最原始的是首先要确定要分别绘制的尾部中的点的标准,并应将其识别为值得详细考虑的问题,并且经常会标出应在转换后的比例尺上分析变量。他的1.5 IQR经验法则是经过大量实验才出现的。它在某些方面已经变成了删除数据点的硬性规则,这从来不是Tukey的意图。一个活泼,令人难忘的名称-箱形图-不会对确保这些创意产生更大影响产生任何影响。相反,色散图是一个枯燥乏味的术语。
这里相当长的参考文献列表可能与外观相反,并不旨在详尽无遗。目的只是为箱形图的某些前体和替代方案提供文档。特定参考可能对详细查询或在您要接近的领域有用。相反,了解其他领域的实践可能是有益的。通常低估了地理学家的图形专业知识,而不仅仅是制图专业知识。
更多细节
Crowe(1933,1936),Matthews(1936),Hogg(1948),Monkhouse和Wilkinson(1952),Farmer(1956),Gregory(1963),Hammond和McCullagh(1974),Lewis(刘易斯(1933,1936),霍格(1948),蒙克豪斯和威尔金森(1952) (1975),Matthews(1981),Wilkinson(1992、2005),Ellison(1993、2001),Wild和Seber(2000),Quinn和Keough(2002),Young 等。(2006)以及Hendry和Nielsen(2007)等。另见Miller(1953,1964)。
克利夫兰(Cleveland(1985))强调了将晶须绘制到特定的百分位数,而不是四分位数的多个IQR中的数据点,但是绘制了互穿范围的Matthews(1936)和Grove(1956)则预料到了这一点。七分之一线,以及范围和四分位间距。Dury(1963),Johnson(1975),Harris(1999),Myatt(2007),Myatt and Johnson(2009、2011)和Davino等人(1996)。(2014年)显示了平均值以及最小值,四分位数,中位数和最大值。Schmid(1954)显示了汇总图,其中位数,四分位数分别为5%和95%。Bentley(1985,1988),Davis(2002),Spence(2007,2014)和Motulsky(2010、2014、2018)将晶须画得分别为5%和95%。Morgan and Henrion(1990,pp.221,241),Spence(2001,p.36)和Gotelli and Ellison(2004,2013,pp.72,110,213,416)将晶须绘制到10%和90%点。哈里斯(1999)给出了5%和95%以及10%和90%的例子。Altman(1991,pp.34,63)和Greenacre(2016)将晶须画出了2.5%和97.5%的分数。Reimann等。(2008年,第46-47页)将晶须绘制到5%和95%以及2%和98%的点。
Parzen(1979a,1979b,1982)将盒子图和分位数图混合为分位数盒图。还参见例如Shera(1991),Militký和Meloun(1993),Meloun和Militký(1994)。但是请注意,Keen(2010)的分位数箱形图只是一个将晶须延伸到极限的箱形图。相反,JMP的分位数箱形图显然是标记为0.5%,2.5%,10%,90%,97.5%,99.5%的箱形图:参见Sall 等。(2014,pp.143-4)。
这是分位数盒图变体的一些注释。
pp ,1 - p−p,1−p
p,1−p
从我看到的文献来看,似乎这些线程(分位数盒图或更高版本(A)(B)(C))都没有相互引用。
!!! 截至2018年10月3日,需要在下一次编辑中提供一些参考的详细信息。
奥特曼,DG,1991年。
医学研究中的实践统计。
伦敦:查普曼和霍尔。
Bentley,JL,1985年。《编程珍珠:选择》。
ACM 28的通讯:1121-1127。
Bentley,JL,1988年。
更多《编程珍珠:编码人员的自白》。
马萨诸塞州雷丁:Addison-Wesley。
Bibby,J.1986。
《教学统计史注解》。
爱丁堡:约翰·毕比(书籍)。
Bowley,AL1910。
统计学基础手册。
伦敦:麦克唐纳和埃文斯。(1952年第7版)
克利夫兰,WS1985。图形数据元素。
加利福尼亚蒙特雷:Wadsworth。
Crowe,PR 1933年。降雨概率分析:一种图形方法及其在欧洲数据中的应用。
苏格兰地理杂志 49:73-91。
克劳,PR,1936年。西部平原的降雨制度。
地理评论 26:463-484。
Davis,JC,2002年。《
地质统计与数据分析》。
纽约:约翰·威利(John Wiley)。
Dickinson,GC,1963年。
统计映射和统计信息。
伦敦:爱德华·阿诺德(Edward Arnold)。(1973年第二版)
杜里,GH,1963年
。东米德兰兹峰和山顶。
伦敦:托马斯·尼尔森。
农民,BH 1956年。锡兰干旱地区的降雨和供水。在《钢铁》,《 RW》和《加利福尼亚费舍尔(合编)
关于英国热带土地的地理论文》中。
伦敦:乔治·菲利普(George Philip),227-268。
Gregory,S.,1963年。《统计方法和地理学家》。
伦敦:朗文。(更高版本,1968年,1973年,1978年;后来发行的Longman)
格罗夫,1956年。尼日利亚的土壤侵蚀。在《钢铁》,《 RW》和《加利福尼亚费舍尔(合编)
关于英国热带土地的地理论文》中。
伦敦:乔治·菲利普(George Philip),79-111。
Haemer,KW,1948年。范围条形图。
美国统计学家 2(2):23。
亨德利,DF和B.尼尔森。2007。《
计量经济学建模:一种可能性方法》。
新泽西州普林斯顿:普林斯顿大学出版社。
Hogg,WH,1948年。降雨散布图:讨论其优缺点。
地理 33:31-37。
Ibrekk,H.和MG Morgan。1987年。向非技术人员进行不确定数量的图形通信。
风险分析 7:519-529。
约翰逊(BLC),1975年。
孟加拉国。伦敦:海涅曼教育。
Keen,KJ,2010年
。R.
Boca Raton,佛罗里达:统计与数据分析图形:CRC出版社。(2018年第二版)
Lewis,CR1975。城市状况变化的分析:以中威尔士州和威尔士中部边疆地区为例。
英国地理学家学会学报
64:49-65。
Martinez,WL,AR Martinez和JL Solka。2011。
使用MATLAB进行探索性数据分析。
佛罗里达州Boca Raton:CRC出版社。
马修斯,医管局1936年。一些熟悉的印度降雨的新观点。
苏格兰地理杂志 52:84-97。
Matthews,JA,1981年。
《地理学的定量和统计方法:实用手册》。
牛津:佩加蒙。
Meloun,M.和J.Militký。1994年。分析化学计量学中的计算机辅助数据处理。I.对单变量数据的探索性分析。
化学论文 48:151-157。
Militký,J.和M. Meloun。1993年。一些用于单变量探索性数据分析的图形辅助工具。
Analytica Chimica Acta 277:215-221。
Miller,AA,1953年。
地球的皮肤。
伦敦:Methuen。(1964年第2版)
Monkhouse,FJ和HR Wilkinson。1952年。《
地图和图表:它们的编译和构造》。
伦敦:Methuen。(更高版本,1963年,1971年)
Morgan,MG和M.Henrion。1990年。
不确定性:量化风险和政策分析中不确定性处理指南。
剑桥:剑桥大学出版社。
Myatt,GJ,2007年。“理解
数据:探索性数据分析和数据挖掘的实用指南”。
新泽西州霍博肯:约翰·威利。
Myatt,GJ和Johnson,WP2009。“理解
数据II:数据可视化,高级数据挖掘方法和应用程序实用指南”。
新泽西州霍博肯:约翰·威利。
Myatt,GJ和Johnson,WP2011。“理解
数据III:设计交互式数据可视化的实用指南”。
新泽西州霍博肯:约翰·威利。
Ottaway,B.1973。色散图:一种显示14号碳日期的新方法。
考古 15:5-12。
E.Parzen,1979年。非参数统计数据建模。
杂志,美国统计协会 74:105-121。
E.Parzen,1979年。鲁棒估计的密度分位数函数观点。在劳纳(Launer),RL和GN威尔金森(GN Wilkinson)编辑,《统计稳健性》。
纽约:学术出版社,第237-258页。
Parzen,E.1982。使用分位数和密度-分位数函数进行数据建模。在Tiago de Oliveira,J.和Epstein,B.(eds)
统计方面的一些最新进展。伦敦:学术出版社,第23-52页。
奎因(Quinn),GP和MJ基夫(MJ Keough)。2002年。
生物学家的实验设计和数据分析。
剑桥:剑桥大学出版社。
Reimann,C.,P。Filzmoser,RG Garrett和R.Dutter。2008年。《
统计数据分析说明:R。Chichester的应用环境统计
:John Wiley》。
Sall,J.,A。Lehman,M。Stephens和L. Creighton。2014年
。JMPStart Statistics:使用JMP进行统计和数据分析的指南。
北卡罗来纳州卡里:SAS研究所。
Shera,DM1991。分位数图的一些使用,以增强数据表示。
计算科学与统计 23:50-53。
Spear,ME,1952年。制图统计。
纽约:麦格劳-希尔。
Spear,ME,1969年。实用制图技术。
纽约:麦格劳-希尔。
Tukey,JW1970。
探索性数据分析。限量初版。第I卷
,马萨诸塞州:Addison-Wesley。
Tukey,JW1972。一些图形和半图形显示。在TA的Bancroft和SA的Brown(编辑)
纪念George W. Snedecor的统计论文中。
爱荷华州艾姆斯:爱荷华州立大学出版社,293-316。(也可以从http://www.edwardtufte.com/tufte/tukey访问)
Tukey,JW,1977。
探索性数据分析。
马萨诸塞州雷丁:Addison-Wesley。
Wild,CJ和GAF Seber。2000。
机会接触:数据分析和推理的第一门课程。
纽约:约翰·威利(John Wiley)。