异常值的“框线图”定义的依据是什么?
Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 − Q 1和Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。 例如,假设您从以下序列开始: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) 此序列创建了4000个数据点的百分位排名。 测试qnorm本系列的正态性会导致: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))(按预期方式)直线数据: 如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))产生结果: 当样本大小足够大时,箱形图不同于shapiro.test,ad.test或, qqnorm将几个点标识为离群值(如本例所示)。