严格定义离群值?


44

人们经常谈论处理统计中的异常值。据我所知,困扰我的是,离群值的定义完全是主观的。例如,如果某个随机变量的真实分布非常重尾或是双峰的,则用于检测异常值的任何标准可视化或摘要统计信息都将错误地删除您要从中采样的分布部分。如果存在异常值,那么对异常值的严格定义是什么?如何在不将不合理的主观性引入分析的情况下处理异常值?


如果您想了解特定的发行版本,请询问您的示例。对于不同的情况它将有所不同。
约翰

8
好吧,我希望您rigorous definition of an outlier能定义一个unreasonable amounts of subjectivity客观的方式;-),谢谢

1
但是定义可能因基础分布和情况而异。我可以说±1.5 IQR或3 SD,或类似的水平。但是,如果我有两种方法,例如反应时间和准确性,我可以采取完全不同的方法。我可以说RT以准确性为条件。它们都可以是好的并且在数学上严格,并且具有不同的应用和含义。
约翰,

2
离群值有许多严格的定义。但是,这些选择似乎是任意的。但是,我认为这是误解的一部分,即统计是每个问题都有一个正确答案的主题。
彼得·弗洛姆-恢复莫妮卡

Answers:


23

只要您的数据来自具有已知属性的已知分布,就可以将异常值严格定义为不太可能由观察到的过程生成的事件(如果您认为“不太可能”是非严格的,则所有假设检验都是)。

但是,此方法在两个层面上都是有问题的:假定数据来自具有已知属性的已知分布,并且存在将异常值视为被某些神奇的仙女走私到数据集中的数据点的风险。

在没有神奇的数据原因的情况下,所有数据都来自您的实验,因此实际上不可能有离群值,而只有怪异的结果。这些可能来自记录错误(例如,一个400000卧室的房子,售价4美元),系统的测量问题(如果物体离边界太近,图像分析算法会报告较大的区域)实验问题(有时,晶体从溶液中沉淀出来,会发出非常高的信号)或系统的功能(一个单元有时会分成三部分而不是两个部分),但是它们也可能是一种从未有人考虑过的机制的结果,因为这种机制很少见,您正在研究,这意味着您所做的某些工作根本不为人所知。

理想情况下,您需要花时间研究每个异常值,并且只有在了解了为什么它不适合您的模型后才将其从数据集中删除。这既费时又主观,因为原因高度依赖于实验,但更糟糕的是:如果您不了解异常值的来源,则可以选择让异常值“弄乱”结果,或定义一些“数学上严格的”方法来隐藏您缺乏理解的地方。换句话说,通过追求“数学上的严谨性”,您可以在不产生显着效果和不进入天堂之间做出选择。

编辑

如果您只拥有一个数字列表,而又不知道它们来自何处,则您将无法判断某个数据点是否是离群值,因为您始终可以假设所有数据都是离群值。


3
但是,并非所有异常值都是根据实验生成的。我处理了一个大型数据集,该数据集涉及某个地区的房地产信息的收集(销售价格,卧室数量,平方英尺等),并且时不时地会有数据输入错误,而且我会400,000卧室的房子要价4美元,或类似的荒谬之物。我认为确定异常值的部分目标是查看是否有可能从数据中生成数据,或者仅仅是输入错误。
Christopher Aden

2
@克里斯托弗·亚丁:我认为这是实验过程的一部分。基本上,为了能够删除异常值,您必须了解数据的生成方式,即,没有充分的理由就不能删除异常值。否则,您只是在样式化数据。我已经修改了答案,以更好地反映这一点。
乔纳斯(Jonas)

这是完全合理的,但是假设您已经对真实分布有相当大的了解。我想更多地考虑您可能不会遇到的情况,这可能是沉重的尾巴或双峰。
dsimcha

@dsimcha:在这种情况下,我认为您无法识别异常值(另请参见我的编辑)。
乔纳斯(Jonas)

2
@dsimcha-您始终具有先验知识!数据是如何提供给您的?您总是总是 了解。数据不会神奇地显示出来。您可以随时进行假设性假设。基于这些假设的“异常值”基本上可以为您提供线索,表明您的假设中有错误。通过研究“异常值”(总是相对的),可以改进模型。
概率

13

您是正确的,消除异常值看起来像是一个主观练习,但这并不意味着它是错误的。对于有关数据分析的每项决定,始终必须有严格的数学原因的强制性需求通常只是虚假的严谨面纱,无论如何这实际上是主观的练习。如果您想对遇到的每种情况应用相同的数学依据,则尤其如此。(如果所有事物都有防弹的清晰数学规则,那么您就不需要统计学家了。)

例如,在长尾分布的情况下,没有一种保证方法可以仅根据数字来确定您是拥有一个具有离群值的潜在基础分布,还是拥有两个离群值中的一部分的两个潜在基础分布。或者,天堂禁止,只是实际的数据分布。

收集的数据越多,您越会进入分布的低概率区域。如果您收集了20个样本,则z值为3.5的可能性很小。如果您收集了10,000个样本,则很可能会得到一个样本,这自然是分布的一部分。鉴于以上所述,您如何仅仅因为排除某些极端因素而做出决定?

通常,选择最佳方法进行分析通常是主观的。它是否过于主观取决于决定的解释和离群值。


+1 写关于离群值的书的 Barnett和Lewis 指出,“一组数据中的离群值[是] 一个观察值(或观察值的子集),似乎与该数据集的其余部分不一致 ” [at p 。7]。他们继续说:“观察者是否对某些观察结果进行仔细检查是主观判断的问题。...“异常值”的特征是它对观察者的影响...。 ”
whuber

“书”在这里有点含糊。我认为Barnett和Lewis是主要的专着,但这不是唯一的关于离群值的书。amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955是最新的。DM Hawkins也有一本旧书。
Nick Cox

9

我认为如果不假设基础过程的模型会引起数据,就不可能定义一个异常值。没有这样的模型,我们就无法确定数据是异常还是“错误”的参照系。我发现有用的离群值的定义是,离群值是一个观察(或多个观察值),它们无法与其他效果良好的模型协调一致。


2
嗯...在他的EDA文本中,John Tukey特别定义了离群值,根本没有使用任何模型。
ub

7
您可以在没有模型的情况下定义离群值,但是我发现这样的定义没有帮助。顺便说一句,按模型,我并不一定要指已明确适合数据的统计模型。任何离群值的定义都要求您对希望看到的什么样的值以及不想看到的什么样的值做一些假设。我认为最好将这些假设(即模型)明确化。还有一点,在EDA中,您正在探索数据,对于EDA而言,离群值的定义可能与对最终模型的拟合有很大不同。
Dikran有袋动物2011年

6

这里有很多很好的答案。但是,我想指出的是两个问题。第一个是“什么是离群值?”,更具体地说,是对此给出“严格定义”。这很简单:

离群值是来自与您要研究的数据/其余数据不同的总体/分布/数据生成过程的数据点。

第二个问题是“我如何知道/检测到数据点是异常值?” 不幸的是,这非常困难。但是,此处给出的答案(确实很好,我无法改进)将对该任务很有帮助。


1
这是一个发人深省的答案。因此,假设我从正态分布中生成了 iid值-它们的范围可能在到 -并且从正态分布中又生成了一个值恰好等于(对于该有大约在机会)。确定额外的个异常值是极不可能的。您是否声称确实如此?您的报价使我如此认为,但我不知道如何将其实际应用。0 1 - 2.5 2.5 4 1 2 1 40 299(0,1)2.52.5(4,1)21402

1
@whuber,是的。我说这一个离群值,尽管您永远不会注意到它(我怀疑这实际上是您所指的意思)。
gung-恢复莫妮卡

1
感谢您所做出的杰出贡献。我只想指出您的定义与该线程中大多数其他定义或离群值描述之间的鲜明对比。您的数据似乎并不能导致令人满意的实际操作:您将始终不得不接受数据集的很大一部分可能在“外围”,但没有任何方法来检测或解决该问题。
ub

@whuber,我完全同意。我认为这与假设检验大致相似,其中(例如)两组可能相差很小,无法检测到,或者相差适中,但最终得出的样本仅靠偶然性就非常相似。但是,从理论上讲,值得理解和保持这种区别。
gung-恢复莫妮卡

1
@whuber,你是对的。有些人做出了这种区分,但是许多人不清楚这些想法。我的立场是,除了污染物之外,没有任何有意义的“异常值”现实。但是,如果您的结果仅由他们来驱动(无论它们是否“真实”),人们也应该/考虑将问题视为关注点,因此您的结果非常脆弱。简而言之,没有理由担心来自您的人群并且并非唯一推动结果的观点。一旦解决了这2个问题,“异常值”就一无所有。
gung-恢复莫妮卡

6

定义1:如上所述,一组反映相同过程(例如过程A)的数据中的异常值是一个观察值(或一组观察值),不太可能是过程A的结果。

该定义当然涉及对过程A的似然函数的估计(因此有一个模型),并设置不太可能的意思(即,决定在何处停止...)。这个定义是我在这里给出答案的根本。它更与假设检验的重要性或契合度有关

定义2异常值是一组观察值中的一个观察值,因此,当使用给定模型对一组观察值进行建模时,如果被移除并分开处理(按照我在此提及的精神混合使用),则准确性更高)。ģ XxGx

该定义涉及“给定模型”和准确性的度量。我认为此定义更多是从实践角度出发,更多是来自离群值的。在原始点,离群值检测是用于可靠统计的工具。

显然,如果您了解第一个定义中的计算似然性涉及得分的建模和计算,则可以使这些定义非常相似:)


2

考虑到我目前对生成此数据的过程的了解,离群值是一个给我带来不便的数据点。

我相信这个定义是可以做到的。


将其与John Tukey的定义(他使用“外部”一词)进行对比:“当我们查看某些批次的值时,我们看到某些值显然在逐步超越其他值。...拇指将某些值选为“外部” ...”,随后他将其总结为“ ...可能识别不正常的单个值”。[EDA,第2章]。他在整本书中都强调,我们在描述数据而不是假装“理解过程”,并且总是可能有多个有效的描述。
ub

同样,“异常值是相对于大多数样本而言会引起意外的样本值”(WN Venables和BD Ripley。2002。S.New York的Modern Applied Statistics:Springer,第119页)。但是,情人眼中会出现惊喜,并且取决于数据的某些默认或显式模型。可能存在另一种异常值完全不足为奇的模型,例如,数据实际上是对数正态或伽马值,而不是正态。
Nick Cox

@Nick这与Barnett和Lewis一致,我在评论John的答案时引用了它们。
whuber

@whuber:您说“对比”,我认为这表示您不同意,但我不确定。我认为模型的形成-也许是隐式和幼稚的-这就是为什么我们看到数据中的模式,月球上的人或离群值的原因。该模型可能没有物理/化学/经济基础,但是我们假设了一个模型。否则,没有惊喜,就没有“外部”。
韦恩

Tukey坚持认为在描述数据时,我们不必它们进行建模。可以将“模型”的定义扩展到包含数据描述,这是很公平的,但是随后该术语变得过于笼统而无用。从图基的观点(当然,据我的解释),不必担心丢脸,也没有方便的问题。因此,尽管我尊重您的动机,但我认为您的态度(反映在“面子保护”和“不便”中)比其他解决该问题的方法更具建设性。
ub

0

将离群值定义为必须从大小为n的数据集中删除的最小元素集的成员,以确保对所有(2 ^ n -1)个唯一子集以95%置信度进行的RUM测试100%符合数据。有关RUM测试的定义,请参见Karian和Dudewicz关于使用R将数据拟合到pdf的文本(2010年9月)。


-2

离群值仅在常客领域很重要。如果单个数据点给您的模型增加了偏差,而偏差是由您的理论预先确定的基础分布定义的,那么对于该模型而言,这是一个离群值。主观性在于以下事实:如果您的理论提出了不同的模型,那么您可以将不同的点集作为离群值。


1
您是否认为离群值在贝叶斯数据分析中不重要?
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.