使用标准偏差检测离群值


27

这里提出我的问题之后,我想知道是否有赞成或反对使用标准偏差检测异常值的观点(例如,任何大于2个标准偏差的数据点都是异常值)。

我知道这取决于研究的背景,例如,一个48公斤的数据点在研究婴儿体重的过程中肯定是一个例外,而不是在研究成年人体重的过程中。

离群值是许多因素(例如数据输入错误)的结果。就我而言,这些过程是可靠的。

我想我要问的问题是:使用标准偏差是检测异常值的可靠方法吗?


1
您说:“就我而言,这些过程是可靠的”。那是什么意思?您确定没有数据输入错误?
韦恩2012年

这里有很多好的答案,我不确定该接受哪个答案!有关此问题的任何指导都将有所帮助
Amarald 2012年

通常,选择一个您认为最直接,最清楚地回答您问题的方法,如果说起来太困难,我会选择票数最高的方法。即使决定哪一个也有些痛苦,对奖励那些花时间回答的人也很重要。
韦恩

1
PS:请您说明一下“这些流程是否可靠”是什么意思?对于以正常性为中心的答案,这并不是至关重要的,但我认为它具有一定的意义。
韦恩

3
离群值不是无模型的。在一个模型下的异常异常值可能在另一个模型下是完全正常的现象。第一个问题应该是“您为什么要检测异常值?” (而不是做其他事情,例如使用对它们健壮的方法),第二个问题是“是什么使观察在您的特定应用程序中成为异常值?”
Glen_b-恢复莫妮卡2015年

Answers:


26

有些离群值显然是不可能的。您提到48公斤婴儿体重。显然这是一个错误。这不是一个统计问题,而是一个实质性问题。没有48公斤人类婴儿。任何统计方法都可以识别出这一点。

就个人而言,我将对数据进行图形化处理,而不是依赖于任何测试(甚至是@Michael推荐的适当测试)。显示某个数据值(或多个值)在某些假设分布下不太可能表示这并不意味着该值是错误的,因此不应仅仅因为它们太极端而自动删除这些值。

另外,您建议的规则(均值2 SD)是一个古老的规则,该规则在计算机使事情变得简单之前就已经使用过。如果N为100,000,那么即使存在理想的正态分布,您当然也希望从平均值中获得不少于2 SD的值。

但是,如果分配错误,该怎么办?假设在总体中,所讨论的变量不是正态分布的,但是尾部重于此?


1
您认为最大可能的婴儿体重值是多少?
mark999 2012年

2
我不知道。但是可以查阅记录。根据answers.com(来自快速的谷歌)的说法,它是23.12磅,是两个有巨大生命的父母所生。如果我正在做研究,我会进一步检查。
彼得·弗洛姆

如果人们无法目视检查数据(即可能是自动过程的一部分)怎么办?
90772

以某种方式将图形添加到自动化中。
彼得·弗洛姆

24

是。这是“检测”互斥量的不好方法。对于正态分布的数据,此方法会将完全良好(但有些极端)的观测值的5%称为“异常值”。同样,当您有一个大小为n的样本,并且寻找极高或极低的观测值以将其称为离群值时,您实际上是在查看极阶统计量。正态分布样本的最大值和最小值不是正态分布。因此,测试应基于极端情况的分布。正如我之前数次提到的那样,这就是格拉布斯(Grubbs)的检验和迪克森(Dixon)比率的检验。即使您对异常值使用适当的检验,也不应仅仅因为观察结果异常极端而拒绝观察。您应该调查为什么首先进行极端观察。


1
就像基于低p值拒绝H0一样“糟糕”。
Leo

16

当您询问潜在的离群值与均值有多少标准偏差时,请不要忘记离群值本身会提高SD,并且也会影响均值。如果您有N个值,则从均值除以SD所得的距离之比不能超过(N-1)/ sqrt(N)。当然,这对于微小的样本最为重要。例如,如果N = 3,则离群值可能不会比均值大1.155 * SD,因此任何值都不可能比均值大2个SD。(当然,这是假定您正在从手头的数据计算样本SD,并且没有理论上的理由知道总体SD)。

计算Grubbs测试的临界值时已考虑到这一点,因此取决于样本量。


12

我认为上下文就是一切。对于给出的示例,可以肯定的是,一个48公斤的婴儿是错误的,使用2个标准差可以解决这种情况。但是,没有理由认为使用2个标准差(或SD的任何其他倍数)适用于其他数据。例如,如果您要查看地表水中的农药残留,则通常会超过2个标准偏差的数据。这些特别高的值不是“离群值”,即使它们离平均值很远,也可能是由于降雨事件,最近的农药施用等导致的。当然,您可以创建其他“经验法则”(为什么不是1.5× SD或3.1415927×SD?),但坦率地说,此类规则很难维护,其成功或失败将根据您检查的数据而改变。我认为,尽管有主观性,但还是运用判断和逻辑,是一种消除异常值的更好方法,而不是使用任意规则。在这种情况下,您不需要2×SD即可检测到48 kg异常值-您可以将其推断出来。那不是更好的方法吗?对于无法解释的情况,任意规则会更好吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.