异常与异常值之间的区别


13

在机器学习的背景下,离群值和异常之间有什么区别?我的理解是,他们两个都指同一件事。


3
出于好奇,在文学中将这种区别放在哪里?我给人的印象是,“异常值”没有正式定义,除了具有很高的影响力和影响力之外,还没有观察到。影响力和杠杆作用确实具有数学定义,但是考虑“高”是任意的。似乎在随意交换单词。
AdamO'1

使用“内部”一词的人会隐式地在“异常”和“异常”之间进行某种区分,因为内部是一种异常。由于“异常值”和“异常”都没有明确的,普遍理解的技术定义,因此我们应该期望这个问题有多个彼此不同(至少略有不同)的答案。
豪伯

Answers:


9

根据以下内容,这两个术语是同义词:

Aggarwal,Charu C.异常值分析。纽约斯普林格,2017年,doi:http : //dx.doi.org/10.1007/978-3-319-47578-3_1

第1页的报价:

在数据挖掘和统计文献中,异常值也称为异常,不一致,异常异常

粗体字不属于原始文本。

作者可以免费下载该书的pdf文件


“异常值”被称为 “异常”的事实并不意味着它们是同义词。就此而言,“狗”有时也称为“动物”。我试图在此答案中更详细地解决此问题(由于该问题受到保护,因此无法在此处发布)。
Marco13

9

轻声回答:

离群值:您可以在数据中找到的值,表明您的模型无法正常运行

异常:针对您在数据中发现的所有赔率的值,该值表明模型运行正常

一个更严肃,更少神秘的答案:

离群值的概念始于建立对数据进行假设的模型的问题。离群值通常是模型无法正确描述数据的指标,因此我们应该质疑模型的结果或数据的质量。

异常的概念始于理论世界和应用世界之外:我们想在数据中寻找异常行为,有时是由于我们对发现某人试图隐藏的行为感兴趣(例如,电子邮件)。问题在于,由于人们试图隐藏自己在做什么,所以我们真的不知道要寻找什么。因此,我们获取了一组“良好”数据,并确定在新数据集中看起来不“良好”的任何内容都是异常现象,值得我们花更多时间详细检查。通常,查找异常意味着在新数据集中查找异常值。但是请注意,这些值在新数据集中可能常见,尽管在旧数据集中很少见!

总而言之,这两个概念在其背后的统计数据方面非常相似(即,给定拟合模型的值不寻常),但从不同角度提出了这个想法。此外,当我们谈论离群值时,通常是指用于拟合模型的数据中的异常数据点,而异常通常是指数据在用于拟合模型的数据中的异常数据点。

注意:此答案基于我如何看待经常使用的两个术语而不是正式定义。用户体验可能有所不同。


6

异常是给定基本分布无法解释的结果(如果我们的假设正确,则不可能)。给定基本分布(不可能),离群值是不太可能发生的事件。


7
引用定义和示例的源将大大改善答案。
蒂姆

4
据我所知,它们是同义词。所以@H。伊克巴尔确实必须引用来源,然后所有读者都必须评估所述来源的权威性
雅克·

2
不可能似乎暗示P(X = ANOMALY)= 0(即正好为0)。我对异常检测的理解是,研究人员可能对可能具有正概率的事件感兴趣。
Cliff AB

4

这些术语在很大程度上可以互换使用。“异常值”是指超出规范的事物-因此它是“异常的”。但我的印象是,“异常值”通常用于非常罕见的观察。在统计中,在正态分布上,您会认为三个西格玛是离群值。那就是您的对象的99.7%被认为是“正常”的。“异常”的使用更为宽松。如果您的网站上突然有成千上万的访问者,那么这些访问者并不罕见。但是,访客的突然增加仍然是“异常的”,而每个访客都不是“异常的”。

可能是在本文中我讨论了这些差异,但是不幸的是,现在无法访问。

统计分析和数据挖掘,第5卷,第5期,2012年10月,第363–387页关于高维数值数据中无监督异常检测的调查


1
我认为您巧妙地暗示了异常值和异常值之间的差异;离群值用于描述不符合总体趋势的数据,异常描述服务器上的异常流量。50%
Cliff AB

2

只是为了进一步弄乱水域,在气候学异常中仅暗示值与均值之差或偏差:

术语温度异常是指偏离参考值或长期平均值。正异常表示观察到的温度比参考值高,而负异常表示观察到的温度比参考值低。

见例如

这很可能被视为外部机器学习,但是对此问题感兴趣的人可能对此感兴趣。


1

(1,5)y=x(1,1)(5,5)(3,3.1)y=x

异常可以是一个数据点,也可以是已经建立模型或了解形成的数据生成过程之后在数据中观察到的总体趋势或行为。您可能会因为系统开始表现不同而面临异常,或者您正在寻找此类数据点,因为您希望在发生模型无效的事件时得到通知。您可能会关心观察海浪振幅中的任何异常行为,这不是因为您不想丢弃这些数据点并建立更好的模型,而是因为您想知道何时可能发生海啸。


2
我不同意大多数。首先,如果您愿意,第一句话可以是您对异常值的定义,但是很难与许多其他定义或用法保持一致。如果数据是(1、1),(2、2),(3、3),(更大,更大),则通常将更大的点描述为离群值,但拟合模型没有问题。您可能(并且应该)想知道为什么数据会这样发送,但是拟合模型很容易。更一般地,原理是离群值可以与数据主体分开,但仍与合理的模型一致。
尼克·考克斯

第二,如果暗示离群值正是您应该做的,那么(a)甚至说出离群值在哪里通常都是有问题的(b)还有许多其他解决方案。线程stats.stackexchange.com/questions/78063/…的范围比标题中提到的范围更广。
尼克·考克斯

1
如果您点击我的链接,您会发现我已经在离群值上发布了一些篇幅。重新阅读您正在回顾性思考的答案时,我似乎毫无意义,因为您似乎正在谈论在拟合时消除异常值。在重新阅读时,我还注意到第二段的第一句包含这样的想法,即异常可能是“大趋势或行为”,这不太可能是您的意思-否则,我不是。不明白。
尼克·考克斯

1

好问题。但是,谷歌搜索“异常值与异常站点之间的差异:.edu”表明这两个术语之间没有理论上的差异。它们在文献中可以互换使用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.