Answers:
轻声回答:
离群值:您可以在数据中找到的值,表明您的模型无法正常运行
异常:针对您在数据中发现的所有赔率的值,该值表明模型运行正常
一个更严肃,更少神秘的答案:
离群值的概念始于建立对数据进行假设的模型的问题。离群值通常是模型无法正确描述数据的指标,因此我们应该质疑模型的结果或数据的质量。
异常的概念始于理论世界和应用世界之外:我们想在数据中寻找异常行为,有时是由于我们对发现某人试图隐藏的行为感兴趣(例如,电子邮件)。问题在于,由于人们试图隐藏自己在做什么,所以我们真的不知道要寻找什么。因此,我们获取了一组“良好”数据,并确定在新数据集中看起来不“良好”的任何内容都是异常现象,值得我们花更多时间详细检查。通常,查找异常意味着在新数据集中查找异常值。但是请注意,这些值在新数据集中可能很常见,尽管在旧数据集中很少见!
总而言之,这两个概念在其背后的统计数据方面非常相似(即,给定拟合模型的值不寻常),但从不同角度提出了这个想法。此外,当我们谈论离群值时,通常是指用于拟合模型的数据中的异常数据点,而异常通常是指数据在用于拟合模型的数据中的异常数据点。
注意:此答案基于我如何看待经常使用的两个术语而不是正式定义。用户体验可能有所不同。
这些术语在很大程度上可以互换使用。“异常值”是指超出规范的事物-因此它是“异常的”。但我的印象是,“异常值”通常用于非常罕见的观察。在统计中,在正态分布上,您会认为三个西格玛是离群值。那就是您的对象的99.7%被认为是“正常”的。“异常”的使用更为宽松。如果您的网站上突然有成千上万的访问者,那么这些访问者并不罕见。但是,访客的突然增加仍然是“异常的”,而每个访客都不是“异常的”。
可能是在本文中我讨论了这些差异,但是不幸的是,现在无法访问。
统计分析和数据挖掘,第5卷,第5期,2012年10月,第363–387页关于高维数值数据中无监督异常检测的调查
异常可以是一个数据点,也可以是已经建立模型或了解形成的数据生成过程之后在数据中观察到的总体趋势或行为。您可能会因为系统开始表现不同而面临异常,或者您正在寻找此类数据点,因为您希望在发生模型无效的事件时得到通知。您可能会关心观察海浪振幅中的任何异常行为,这不是因为您不想丢弃这些数据点并建立更好的模型,而是因为您想知道何时可能发生海啸。