用于多峰分布的盒须图


13

我是否可以将箱须图用于多峰分布还是仅用于单峰分布?


具有多个模式的分布的通常术语是“ 多模式 ”。如果这是您的意思,请编辑以使用常规术语。如果您还有其他意思,请定义该术语。
Glen_b-恢复莫妮卡

1
箱形图并不总是有助于复杂的分布形状。双峰...多峰(我想这是一个比“多峰”更常见的术语)形状通常会被隐藏。在很大程度上取决于对单峰性的背离程度。否则,不会响铃,也不会出现错误消息。但是,即使是直方图或核密度估计也可以破坏复杂的分布。有些人认为这是一个功能,因为很容易过度接受样本中的怪异模式。我会说,唯一不会丢失信息的图是分位数图。
尼克·考克斯

@Glen_b我做到了。在我的书中,他们谈论的是多峰分布。单峰一个峰正确吗?
user1091344 2015年

1
您当然可以使用箱形图-谁会阻止您?问题在于,普通箱线图没有给出模式数量的指示(尽管箱线图有修改,可以指示多模态)。当兴趣集中在组间比较位置和分布(跨多个组)时,而不是直接关注分布形状时,箱形图更好。如果要显示多模态很重要-尤其是在小组很少的情况下-我强烈建议您使用其他显示器,或者可能使用多个显示器。(我会在可能的情况下将我的评论扩展为答案。)
Glen_b-恢复莫妮卡2015年

1
您的证据并不能使我们对这本书有好的评价。
尼克·考克斯

Answers:


20

问题在于通常的箱线图*通常无法给出模式数量的指示。在某些(通常很少见)的情况下,有可能清楚地表明最小数量的模式超过1,更常见的是,给定的箱线图与一个或任何更多数量的模式一致。

*建议对普通箱形图进行几处修改,以更多地表明密度的变化,并可以用来识别多种模式,但我不认为这些是此问题的目的。

例如,尽管此图确实指示至少存在两种​​模式(数据的生成恰好有两种)-

在此处输入图片说明

相反,此分布有两种非常清晰的模式,但您根本无法从盒图中看出来:

在此处输入图片说明

ñ=

实际上,这里的图1 (我相信是稍后在[1]中发表的工作论文)显示了具有相同箱形图的四个不同数据集。

我没有手头的数据,但是制作一个相似的数据集是一件小事-如上面与五位数摘要有关的链接中所述,我们只需要限制分布在矩形框内即可,五个数字摘要限制了我们。

这是R代码,它将生成与本文相似的数据:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

这是与上述数据类似的纸张显示(除了我在这里显示所有四个箱形图):

在此处输入图片说明

但是要当心- 直方图也可能有问题;确实,我们在这里看到了它的问题之一,因为第三个“有顶”直方图中的分布实际上明显是双峰的。直方图bin宽度太宽而无法显示。此外,正如尼克·考克斯(Nick Cox)在评论中指出的那样,内核密度估计值也可能会影响模式数量的印象(有时会抹去模式,或者有时会建议原始模式中不存在的小模式)。必须注意许多常见显示的解释。

箱形图进行了一些修改,可以更好地指示多种模式(花瓶图,小提琴图和豆图等)。在某些情况下,它们可能很有用,但是如果我对寻找模式感兴趣,通常会查看另一种类型的显示器。

x4

[1]:Choonpradub,C.和McNeil,D.(2005),
“箱形图能否得到改善?”
Songklanakarin J. Sci。技术。27:3,页649-657。
http://www.jourlib.org/paper/2081800
pdf


2
关于模式的两个更广泛的评论。对一种特定模式的良好测试是它是否在相同大小的样本中重复出现。我的经验是,在这种意义上,模式可能会变得非常善变。2.在考虑模式时,总是值得询问模式是否具有实质性解释。但是每一个论点都可能是错误的。如果我没记错的话,大多数人会猜测,男性和女性的混合会赋予身高分布双峰性,但是即使在高质量的大样本中也很难检测到。
尼克·考克斯

1
@NickCox谢谢;实际上,我猜想身高不会是双峰的。想象一下(作为对现实的粗略近似),我们考虑了两个具有相似标准偏差的正态分布,它们的均值相差约1sd,其中男性与女性的数量大致相同。那么实际上组合的(两个正态的混合)分布是单峰的。当然,现实要复杂一些-这两种分布都是族裔的混合,即使在性别和族裔群体中也是偏斜的,具有不同的方差,均值相差超过1sd,但是结果(单峰性)不应令我们感到惊讶
Glen_b-恢复莫妮卡2015年

3
值得一提的是,JW Tukey在其探索性数据分析中(雷丁,马萨诸塞州:Addison-Wesley,1977年)包括一张瑞利数据的点状图,这导致了氩气的发现,这是一种双峰模式,箱形图无用。在Tukey的情况下,需要使用点阵图来查看结构。众所周知,图基(Tukey)被称为盒形图,而鲜为人知的是图基。
Nick Cox

7

有多种选项可用于检测R的多峰性。下图的数据是用三种模式(-3,0,1)生成的。箱形图明显优于其他箱形图(小提琴图看起来具有不同的默认内核密度设置),但没有一个真正区分0和1模式。在计算机时代,再也没有理由使用箱线图了。为什么要抛出信息?

在此处输入图片说明

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.