我是否可以将箱须图用于多峰分布还是仅用于单峰分布?
我是否可以将箱须图用于多峰分布还是仅用于单峰分布?
Answers:
问题在于通常的箱线图*通常无法给出模式数量的指示。在某些(通常很少见)的情况下,有可能清楚地表明最小数量的模式超过1,更常见的是,给定的箱线图与一个或任何更多数量的模式一致。
*建议对普通箱形图进行几处修改,以更多地表明密度的变化,并可以用来识别多种模式,但我不认为这些是此问题的目的。
例如,尽管此图确实指示至少存在两种模式(数据的生成恰好有两种)-
相反,此分布有两种非常清晰的模式,但您根本无法从盒图中看出来:
实际上,这里的图1 (我相信是稍后在[1]中发表的工作论文)显示了具有相同箱形图的四个不同数据集。
我没有手头的数据,但是制作一个相似的数据集是一件小事-如上面与五位数摘要有关的链接中所述,我们只需要限制分布在矩形框内即可,五个数字摘要限制了我们。
这是R代码,它将生成与本文相似的数据:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
这是与上述数据类似的纸张显示(除了我在这里显示所有四个箱形图):
但是要当心- 直方图也可能有问题;确实,我们在这里看到了它的问题之一,因为第三个“有顶”直方图中的分布实际上明显是双峰的。直方图bin宽度太宽而无法显示。此外,正如尼克·考克斯(Nick Cox)在评论中指出的那样,内核密度估计值也可能会影响模式数量的印象(有时会抹去模式,或者有时会建议原始模式中不存在的小模式)。必须注意许多常见显示的解释。
箱形图进行了一些修改,可以更好地指示多种模式(花瓶图,小提琴图和豆图等)。在某些情况下,它们可能很有用,但是如果我对寻找模式感兴趣,通常会查看另一种类型的显示器。
x4
[1]:Choonpradub,C.和McNeil,D.(2005),
“箱形图能否得到改善?”
Songklanakarin J. Sci。技术。,27:3,页649-657。
http://www.jourlib.org/paper/2081800
pdf
有多种选项可用于检测R的多峰性。下图的数据是用三种模式(-3,0,1)生成的。箱形图明显优于其他箱形图(小提琴图看起来具有不同的默认内核密度设置),但没有一个真正区分0和1模式。在计算机时代,再也没有理由使用箱线图了。为什么要抛出信息?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")