异常值的“框线图”定义的依据是什么?


17

Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 Q 1Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。

例如,假设您从以下序列开始:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

此序列创建了4000个数据点的百分位排名。

测试qnorm本系列的正态性会导致:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))(按预期方式)直线数据:

数据qqnorm情节

如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))产生结果:

箱线图数据

当样本大小足够大时,箱形图不同于shapiro.testad.test或, qqnorm几个点标识为离群值(如本例所示)。


“基础”是什么意思?这是一个定义,没有人说完全正态分布没有异常值
Haitao Du

2
@ hxd1011,分布的定义不能与它本身相离。在盒子和晶须图上测试异常值的定义是测试/ something /以提供结果,无论测试的内容是测试的基础。
Tavrock

我认为盒子和晶须的离群值定义只是一些试探法...而且,为什么分布的定义不能与自身有离群值?
海涛杜

3
选择什么规则都没有关系,您最终会说“有很多点,即使是完美的正态分布也会返回离群值”。[尝试提出一种有用的识别异常值的方法,如果您从正态分布中采样,这些异常值不能拒绝任何点。]
Glen_b-恢复莫妮卡(Monica

1
一个经常重复的轶事是提出了这个经验法则的约翰·图基(John Tukey)被问到为什么是1.5;并说1太少了,2太大了。鉴于我多次看到它被误认为是确定的,口头的标准,我很高兴它消失。现在,我们都有可以显示所有数据的计算机!
尼克·考克斯

Answers:


25

箱线图

这是Hoaglin,Mosteller和Tukey(2000)的相关部分:了解稳健和探索性数据分析。威利。由John D. Emerson和Judith Strenio撰写的第3章“箱线图和批次比较”(第62页):

FL32dFFU+32dF

FLFUdFFUFL

他们去和显示应用高斯人口(63页):

0100.67450.67451.34943322.02352±2.69822399.3%

所以

0.7%

此外,他们写

[...]因此,我们可以判断我们的数据是否比高斯更重尾,有多少点超出了异常边界。[...]

他们提供的是属于异常临界值之外的值的预期比例(标有“Total%输出”)的表:

表3-2

因此,这些临界值从来都不是要严格限制哪些数据点是异常值的规则。如您所述,即使理想的正态分布也可能在箱图中显示出“离群值”。


离群值

据我所知,还没有普遍接受的离群值定义。我喜欢Hawkins(1980)的定义:

离群值是一个与其他观察值有很大差异的观察值,以致引起怀疑,它是由不同的机制产生的。

理想情况下,你应该只享受数据点为离群值,一旦你明白为什么他们不属于该数据的其余部分。一个简单的规则是不够的。可以在Aggarwal(2013)中找到对异常值的良好处理。

参考文献

Aggarwal CC(2013):离群值分析。施普林格。
Hawkins D(1980):异常值的识别。查普曼和霍尔。
Hoaglin,Mosteller和Tukey(2000):了解稳健和探索性的数据分析。威利。


7

这个词“异常”经常被假定为是指像“这是错误的,误导的,错误或损坏,因此应当从分析中忽略的数据值”,但是这不是什么杜克意味着他使用离群。离群值仅仅是从数据集中的中位数很长的路要走点。

关于在许多数据集中预期异常值的观点是正确且重要的。关于该主题有很多很好的问题和答案。

从非对称数据去除异常值

识别和消除异常值是否合适,因为它们会引起问题?


2

与所有异常值检测方法一样,必须小心谨慎地确定哪些值是真正的异常值。我认为箱线图只是提供了数据分布的良好可视化,任何真正的异常值都将易于发现。


0

我想您应该担心如果没有一些异常值作为正态分布的一部分,否则也许您应该寻找没有任何异常值的原因。显然,应该对其进行检查,以确保它们没有记录错误,但否则将是预期的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.