Answers:
对应于75个分位数的X值减去对应于第25个分位数的X值是距离。例如,对于SAT数学测试,620是第75个分位数,而520是第25个分位数。因此,如果您的分数高于620,那么您的成绩要好于75%的应试者。晶须将延伸到 1.5 *(620-520)点长。
箱形图旨在以一种清晰可见的方式汇总相对较小的数据集
核心价值。
“典型”值的传播。
相对于点差,与中心值相差太大的单个值会被特别注意并被单独标识(例如,按名称)。这些称为“标识值”。
这将以一种健壮的方式完成:这意味着当任意或较小一部分数据值被更改时,箱形图不应看起来有明显的不同。
发明人约翰·图基(John Tukey)采用的解决方案是系统地使用订单统计信息 -从最低到最高排序的数据。为了简单起见(他在头脑上或用铅笔和纸做过计算),Tukey着重于中位数:一批数字的中间值。(对于计数为偶数的批次,Tukey使用两个中间值的中点。)中位数可抵抗多达其所基于数据的一半的变化,因此它作为可靠的统计数据非常出色。从而:
该中心值估计所有的数据的中位数。
通过“上半部分”(所有数据等于或大于中位数)和“下半部分”(所有数据等于或小于中位数)之间的中位数之差来估计价差。这两个中位数称为上下“铰链”或“四分之一”。如今,它们趋向于被称为四分位数的东西(las,没有通用定义)代替。
用于筛选异常值的不可见栅栏竖立超出铰链的1.5倍和3倍(远离中心值)。
(那些足以记住60年代嬉皮嬉皮士年龄的人会理解这个笑话。)
由于散布是数据值的差异,因此这些围栏与原始数据具有相同的度量单位:这就是问题中的“距离”。
关于要识别的数据值,Tukey写道
我们至少可以识别出极限值,并且可以很好地识别出更多的极限值。
任何显示中位数,铰链和识别值的图形方法都可以被称为“箱形图”(最初为“箱须图”)。 围栏通常没有显示。 Tukey的设计包括一个长方形的铰链,中间是一个“腰部”。线条流畅的“晶须”从铰链向外延伸到最里面的标识值(在框的上方和下方)。通常,这些最里面标识的值是上面定义的相邻值。
因此,箱形图的默认外观是将晶须扩展到最极端的非离群数据值,并(通过文本标签)识别包含晶须末端和所有异常值的数据。例如,图彭图加蒂托火山是图右侧所示的火山高度数据的高相邻值:晶须停在该位置。图彭加蒂托和所有更高的火山都被分别识别。
这样可以如实显示数据,图形中的距离与数据值的差异成正比。 (任何偏离直接比例的行为都会在Tufte(1983)的术语中引入“谎言因素”。)
Tukey的EDA书(第41页)中的这两个箱形图说明了这些组件。值得注意的是,他在左侧确定了状态数据集高端和低端的非异常值,并在右侧识别了一个火山高度的非异常值。这体现了本书中规则与判断的相互作用。
(您可以将这些识别出的数据视为非异常数据,因为您可以估计围栏的位置。例如,州高度的铰链接近11,000和1,000,相差约10,000。乘以1.5和3得出距离分别为15,000和30,000。因此,不可见的上围栏必须接近11,000 + 15,000 = 26,000,而下围栏在1,000-15,000时应小于零。远围栏将接近11,000 + 30,000 = 41,000和1,000-30,000 = -29,000。)
爱德华·图夫特。 定量信息的可视化显示。 柴郡出版社,1983年。
图基,约翰。第2章,EDA。 艾迪生·韦斯利(Addison-Wesley),1977年。