Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 − Q 1和Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。
此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。
例如,假设您从以下序列开始:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
此序列创建了4000个数据点的百分位排名。
测试qnorm
本系列的正态性会导致:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))
(按预期方式)直线数据:
如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))
产生结果:
当样本大小足够大时,箱形图不同于shapiro.test
,ad.test
或, qqnorm
将几个点标识为离群值(如本例所示)。