在这里提出我的问题之后,我想知道是否有赞成或反对使用标准偏差检测异常值的观点(例如,任何大于2个标准偏差的数据点都是异常值)。
我知道这取决于研究的背景,例如,一个48公斤的数据点在研究婴儿体重的过程中肯定是一个例外,而不是在研究成年人体重的过程中。
离群值是许多因素(例如数据输入错误)的结果。就我而言,这些过程是可靠的。
我想我要问的问题是:使用标准偏差是检测异常值的可靠方法吗?
在这里提出我的问题之后,我想知道是否有赞成或反对使用标准偏差检测异常值的观点(例如,任何大于2个标准偏差的数据点都是异常值)。
我知道这取决于研究的背景,例如,一个48公斤的数据点在研究婴儿体重的过程中肯定是一个例外,而不是在研究成年人体重的过程中。
离群值是许多因素(例如数据输入错误)的结果。就我而言,这些过程是可靠的。
我想我要问的问题是:使用标准偏差是检测异常值的可靠方法吗?
Answers:
有些离群值显然是不可能的。您提到48公斤婴儿体重。显然这是一个错误。这不是一个统计问题,而是一个实质性问题。没有48公斤人类婴儿。任何统计方法都可以识别出这一点。
就个人而言,我将对数据进行图形化处理,而不是依赖于任何测试(甚至是@Michael推荐的适当测试)。显示某个数据值(或多个值)在某些假设分布下不太可能表示这并不意味着该值是错误的,因此不应仅仅因为它们太极端而自动删除这些值。
另外,您建议的规则(均值2 SD)是一个古老的规则,该规则在计算机使事情变得简单之前就已经使用过。如果N为100,000,那么即使存在理想的正态分布,您当然也希望从平均值中获得不少于2 SD的值。
但是,如果分配错误,该怎么办?假设在总体中,所讨论的变量不是正态分布的,但是尾部重于此?
我认为上下文就是一切。对于给出的示例,可以肯定的是,一个48公斤的婴儿是错误的,使用2个标准差可以解决这种情况。但是,没有理由认为使用2个标准差(或SD的任何其他倍数)适用于其他数据。例如,如果您要查看地表水中的农药残留,则通常会超过2个标准偏差的数据。这些特别高的值不是“离群值”,即使它们离平均值很远,也可能是由于降雨事件,最近的农药施用等导致的。当然,您可以创建其他“经验法则”(为什么不是1.5× SD或3.1415927×SD?),但坦率地说,此类规则很难维护,其成功或失败将根据您检查的数据而改变。我认为,尽管有主观性,但还是运用判断和逻辑,是一种消除异常值的更好方法,而不是使用任意规则。在这种情况下,您不需要2×SD即可检测到48 kg异常值-您可以将其推断出来。那不是更好的方法吗?对于无法解释的情况,任意规则会更好吗?