有没有检测异常值的简单方法?


14

我想知道是否有一种检测异常值的简单方法。

对于我的一个项目,基本上是受访者一周内参加体育锻炼的次数与一周内他们在家里吃饭(快餐)的次数之间的相关性,我画了一个散点图,从字面上删除了极端的数据点。(散点图显示负相关。)

这是基于价值判断(基于散点图,这些数据点显然是极端的)。我没有做任何统计检验。

我只是想知道这是否是一种处理异常值的好方法。

我有350个人的数据,因此丢失(说)20个数据点对我来说并不担心。



3
stats.stackexchange.com/questions/175也非常相关。stats.stackexchange.com/questions/213的答案中描述了许多潜在的异常值检测方法。但更重要的是一些上下文:您正在使用此散点图做什么?您想从中得出什么结论?有些结论将很少取决于您对异常值的处理方式,而另一些结论可能会严重依赖于它们。这表明您用于识别和处理异常值的方法必须取决于预期的分析。
ub

在经济学数据集中,标准做法是说“我们以2.5%和97.5%的比例对数据集进行风化处理”,或者分别是1%和99%。然后,他们只删除超出该分位数范围的观测值。

@Harokitty Winsorising似乎意味着剪切值而不是丢弃它们。
彼得·伍德

除数据记录中的任何错误外,我还建议您也报告散点图未经编辑的情况。有可能存在一个或多个其他不同的种群。例如,请参见en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Answers:


21

没有简单的声音方法可以消除异常值。离群值可以有两种:

1)数据输入错误。这些通常是最容易发现并且总是最容易处理的。如果可以找到正确的数据,请对其进行更正。如果没有,请删除它。

2)不合法的合法数据。这要复杂得多。对于像您这样的双变量数据,离群值可能是单变量或双变量。

a)单变量 首先,“异常”取决于分布和样本量。您给我们提供了350个样本量,但是分布是什么?显然这是不正常的,因为它是一个相对较小的整数。泊松下的不寻常现象不会是负二项式。我有点怀疑负二项式关系为零膨胀。

但是,即使有了分布,(可能)离群值也会影响参数。您可以查看“留出一个”分布,在该分布中,如果数据除q以外的所有点,则检查数据点q是否为离群值。即使这样,如果有多个异常值怎么办?

b)双变量。这是变量本身的值都不是异常的地方,但变量的值却是奇数。一份可能的伪经报告说,人口普查曾说美国有20,000名12岁的寡妇。12岁的寡妇并不罕见,寡妇也不是,但12岁的寡妇也不例外。

考虑到所有这些,报告一个可靠的关系度量可能会更简单。


谢谢。我认为置信椭圆可能是异常值的一个很好的指标,因为它将显示处于一定置信度水平(给定的双变量正态分布)内的数据百分比。
Amarald 2012年

您的数据不能是双变量正态的,因为它是由非负整数组成
Peter Flom-恢复莫妮卡

18

我已经对离群值进行了大量研究,尤其是当我从1978年至1980年在Oak Ridge进行能源数据验证时。针对正常数据的单变量离群值有正式测试(例如Grubbs检验和Dixon比率检验)。有针对多元离群值和时间序列的检验。巴内特(Barnett)和刘易斯(Lewis)撰写的有关“统计数据中的异常值”的书是有关异常值的圣经,几乎涵盖了所有内容。

当我在Oak Ridge从事数据验证时,我们拥有大型的多元数据集。对于单变量离群值,存在一个指向极端的方向(高度高于均值而高度低于均值)。但是对于多元离群值,有许多方向可以寻找离群值。我们的理念是考虑数据的预期用途。如果您要估计某些参数,例如双变量相关性或回归系数,那么您想寻找对目标参数产生最大影响的方向。那时我读了Mallows关于影响函数的未发表论文。Gnanadesikan的多变量分析书介绍了使用影响函数检测异常值的方法。当然,您也可以在Barnett和Lewis中找到它。

参数的影响函数定义在观测值的多元空间中的点上,并且实质上测量了包含数据点时与未包含数据点时参数估计之间的差异。您可以对每个样本点进行这样的估计,但是通常您可以为影响函数得出一个很好的函数形式,从而提供洞察力和更快的计算能力。

例如,在我于1982年发表在《美国数学与管理科学杂志》上的论文 “影响函数及其在数据验证中的应用”中,我展示了双变量相关影响函数的解析公式,并且恒定影响的轮廓是双曲线。因此,轮廓显示了影响函数最快增加的平面方向。

在我的论文中,我展示了如何将影响函数与FPC Form 4数据的能量产生和消耗进行双变量相关。两者之间存在明显的高正相关性,我们发现了一些对相关性估计有很大影响的离群值。进一步的调查表明,至少有一点是错误的,我们能够纠正它。

但是,在讨论异常值时,我经常提到的重要一点是,自动拒绝是错误的。离群值并不总是错误,有时它提供有关数据的重要信息。不应仅因为不符合我们的现实理论而删除有效数据。不管是否困难,都应始终调查异常发生的原因。

我应该提到,这不是该站点首次讨论多元离群值。搜索离群值可能会导致讨论多变量离群值的几个问题。我知道我之前已经参考过我的论文和这些书,并提供了链接。

另外,在讨论异常排除时,我们很多人都建议不要使用它,特别是如果仅基于统计测试来完成。彼得·胡伯(Peter Huber)经常提到鲁棒估计作为离群值拒绝的替代方法。这样的想法是,健壮的过程将减轻异常值的负担,从而减少其对估计的影响,而无需采取繁重的步骤拒绝和使用非鲁棒的估计器。

影响函数实际上最初是由弗兰克·汉佩尔(Frank Hampel)在1970年代初期(我认为是1974年)在其博士学位论文中开发的。他的想法实际上是使用影响函数来识别对异常值不是很强的估计量,并帮助开发强大的估计量。

是先前有关该主题的讨论的链接,在该讨论中,我提到了我的一些使用影响函数检测时间序列离群值的工作。


2

处理异常值的另一种简单方法是使用非参数统计。Spearman的rho可能适合您的样本量,作为相关性的指标。(不过请注意,非参数,排名统计信息对非线性关系的帮助不大。)

如果要使用Pearson的r(参数统计量),并且如果无法计算Cook的距离,则可以使用标准经验法则,即任何数据点均值均值应大于2.67标准差(sd) ,或均值的4.67 sd分别是异常值或极端值。这些是在一个标准统计分析程序(SPSS)中使用的离群值和极端数据点的典型截止值。

仅因为数据点是异常值,并不表示它是要丢弃的坏数据。您可以计算有无极端的相关性,然后从那里开始。


1

您可能需要尝试“库克距离”。请参阅维基百科文章以了解建议的截止频率。另外,如果您要使用某种回归模型,则不妨尝试使用稳健的回归。


1
这似乎更像是评论而不是答案。答案通常更长且更详细。例如,如果您包括关于库克距离为何能很好地测试异常值的推理,那么这就是答案。
彼得·弗洛姆

1

首先,除非您确定该值不属于研究范围,否则不要删除非典型值!它们可能包含一些重要信息(可变性)。如果明显异常值是由于输入或测量数据不正确造成的,则应删除它们。如果您不知道用于获取数据的采样方法,则应按以下方式识别非典型值及其影响:

  1. 异常程度:预期有5%的观测值具有标准化残差(Ë一世)> 2.如果残差更高,则可以怀疑离群值。

  2. 在x的空间中距中心重心的距离度: H一世一世(杠杆)。当一些H一世一世 如果您的观察值很高,则可能会导致模型变形,因为超出了您的研究范围。

  3. 对拟合模型的影响程度:影响点是那些权重足以更改您的模型的点。然后,使用所有n个观测值的拟合模型的系数与使用所有点的拟合模型的系数有很大不同,但该观测值不是一世-th。
    库克距离或库克D是对数据点影响的常用估计。:dC一世=Ë一世2·H一世一世/[1个-H一世一世·p]

可能的解决方案:

  • 转换变量和/或向模型添加新变量。
  • 对于有影响的观察结果,这些观察值不过是离群值(如果不是很多),则可以删除这些人。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.