了解箱线图的晶须


9

我对箱线图的晶须的解释有疑问。我已阅读以下内容:“在矩形的顶部和底部,“晶须”显示的范围是0.25分位数和0.75分位数之间的距离的1.5倍”,但并不完全理解“距离”的含义。

不可能表示概率质量,因为在0.25和0.75分位数之间,我们显然总是具有相同百分比的数据。那是什么主意?

Answers:


6

对应于75个分位数的X值减去对应于第25个分位数的X值是距离。例如,对于SAT数学测试,620是第75个分位数,而520是第25个分位数。因此,如果您的分数高于620,那么您的成绩要好于75%的应试者。晶须将延伸 1.5 *(620-520)点长。


好吧,但是然后晶须在盒子的两侧都具有相同的长度(不一定是这种情况)。
Guest555

8
+1,一个(稍微更多)的完整答案是晶须高达 1.5 * IQR,如果在该时间间隔内没有更多数据,则晶须会短时停止。此外,超出该点的任何其他数据都单独绘制为潜在异常值。
gung-恢复莫妮卡

有了这些额外的解释,现在很清楚,非常感谢!
Guest555

我用@gung的优点编辑了答案。
Dimitriy V. Masterov

5
@gung和一个更完整的答案是,晶须始终位于数据中的现有点上
hadley

4

箱形图旨在以一种清晰可见的方式汇总相对较小的数据

  • 核心价值。

  • “典型”值的传播。

  • 相对于点差,与中心值相差太大的单个值会被特别注意并被单独标识(例如,按名称)。这些称为“标识值”。

这将以一种健壮的方式完成:这意味着当任意或较小一部分数据值被更改时,箱形图不应看起来有明显的不同。

发明人约翰·图基John Tukey)采用的解决方案是系统地使用订单统计信息 -从最低到最高排序的数据。为了简单起见(他在头脑上或用铅笔和纸做过计算),Tukey着重于中位数:一批数字的中间值。(对于计数为偶数的批次,Tukey使用两个中间值的中点。)中位数可抵抗多达其所基于数据的一半的变化,因此它作为可靠的统计数据非常出色。从而:

  • 中心值估计所有的数据的中位数。

  • 通过“上半部分”(所有数据等于或大于中位数)和“下半部分”(所有数据等于或小于中位数)之间的中位数之差来估计价差。这两个中位数称为上下“铰链”或“四分之一”。如今,它们趋向于被称为四分位数的东西(las,没有通用定义)代替。

  • 用于筛选异常值的不可见栅栏竖立超出铰链的1.5倍和3倍(远离中心值)。

    • “最接近但仍在内部围栏内的两端的值是'相邻的'。”
    • 第一围栏之外的值称为“异常值”。
    • 第二个围栏之外的值“很远”。

(那些足以记住60年代嬉皮嬉皮士年龄的人会理解这个笑话。)

由于散布是数据值的差异,因此这些围栏与原始数据具有相同的度量单位:这就是问题中的“距离”。

关于要识别的数据值,Tukey写道

我们至少可以识别出极限值,并且可以很好地识别出更多的极限值。

任何显示中位数,铰链和识别值的图形方法都可以被称为“箱形图”(最初为“箱须图”)。 围栏通常没有显示。 Tukey的设计包括一个长方形的铰链,中间是一个“腰部”。线条流畅的“晶须”从铰链向外延伸到最里面的标识值(在框的上方和下方)。通常,这些最里面标识的值是上面定义的相邻值。

因此,箱形图的默认外观是将晶须扩展到最极端的离群数据值,并(通过文本标签)识别包含晶须末端和所有异常值的数据。例如,图彭图加蒂托火山是图右侧所示的火山高度数据的高相邻值:晶须停在该位置。图彭加蒂托和所有更高的火山都被分别识别。

这样可以如实显示数据,图形中的距离与数据值的差异成正比。 (任何偏离直接比例的行为都会在Tufte(1983)的术语中引入“谎言因素”。)

来自EDA的图

Tukey的EDA书(第41页)中的这两个箱形图说明了这些组件。值得注意的是,他在左侧确定了状态数据集高端和低端的非异常值,并在右侧识别了一个火山高度的非异常值。这体现了本书中规则判断的相互作用。

(您可以将这些识别出的数据视为非异常数据,因为您可以估计围栏的位置。例如,州高度的铰链接近11,000和1,000,相差约10,000。乘以1.5和3得出距离分别为15,000和30,000。因此,不可见的上围栏必须接近11,000 + 15,000 = 26,000,而下围栏在1,000-15,000时应小于零。远围栏将接近11,000 + 30,000 = 41,000和1,000-30,000 = -29,000。)


参考文献

爱德华·图夫特。 定量信息的可视化显示。 柴郡出版社,1983年。

图基,约翰。第2章,EDA 艾迪生·韦斯利(Addison-Wesley),1977年。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.