使用回归检测异常值


11

可以将回归用于异常检测。我了解可以通过消除异常值来改进回归模型的方法。但是这里的主要目的不是拟合回归模型,而是使用回归找出谎言


如果在没有外部模型的情况下拟合后拟合度有所提高,则有证据表明这是极值。如果您有大量数据,这可能没有意义,因为拟合度相对较差。
RomanLuštrik2014年

@RomanLuštrik:这是离群值的非常粗略的定义。例如,它与Glen_b答案中使用的离群值的观点不一致(或者与此相关,与教科书中有关“稳健的统计数据:理论和方法”等主题的离群值的定义)。愿意援引来源来支持您的定义吗?
user603 2014年

我不能引用任何参考。您当然是对的,在健身方面有什么改进?改进可能是一个高度主观的问题,应作为指导,而不是机器人的临界值,并应根据具体情况进行判断。
RomanLuštrik2014年

迭代加权最小二乘是一种鲁棒的回归方法,通常用于查找数据中的异常值。
ub

Answers:


13

使用回归查找异常值的最佳选择是使用稳健回归。

普通回归可以通过两种方式受到异常值的影响:

首先,在附近的x值处,y方向上的极端异常会影响该区域的拟合,就像异常值会影响均值一样。x¯

其次,在x空间中的“离群”观察是有影响的观察 -它可以将线的拟合拉向它。如果距离足够远,该线将穿过影响点:

在此处输入图片说明

在左边的图中,有一个点很有影响力,它从大量数据中拉出一条线。在正确的图中,它被移得更远了-现在直线穿过了该点。当x值达到极限时,当您上下移动该点时,线会随着其他点的均值和一个影响点一起移动。

与其余数据完全一致的影响点可能不是一个大问题,但与其余数据相距较远的一行将使该行适合数据而不是数据。

如果看右图,则红线-最小二乘回归线- 根本没有将极端显示为离群点-残差为0。相反,最小二乘线的大残差位于数据的主要部分!

这意味着您可以完全错过一个异常值

更糟糕的是,通过多元回归,对于任何单个x变量,x空间中的离群值看起来都不是特别不寻常。如果有可能出现这种情况,则使用最小二乘回归可能是非常危险的事情。

稳健的回归

如果您拟合一条稳固的线(尤其是一条对有影响力的异常值具有稳健性的线)(例如第二幅图中的绿线),那么该异常值将具有非常大的残差。

这种情况下,您可能会希望识别出异常值-从某种意义上说,它们将是离直线不太近的点。


移除异常值

您当然可以使用健壮的回归来识别并从而消除异常值。

但是,一旦有了稳健的回归拟合(该回归拟合尚未受到离群值的严重影响),就不必删除离群值了-您已经有了一个非常合适的模型。


1
有时“您不一定需要删除异常值”,发现异常值研究的目的(例如,欺诈识别)
user603 2014年

1
@ user603我同意,通常是这样-但是找到删除
Glen_b-恢复Monica 2014年

3
(+1)不错的答案,但是很遗憾您没有提到任何鲁棒回归的方法。例如,绿线是如何在右侧子图上绘制的(为什么您比其他算法更喜欢该算法)?也许此链接在这里可能有用:快速线性回归对异常值具有鲁棒性 -可以说是CV讨论鲁棒回归的最佳线索。
变形虫

-2

可以将回归用于离群值检测。

是。这个答案和Glen_b的答案解决了这个问题。

此处的主要目的不是拟合回归模型,而是使用回归找出谎言

在罗曼·卢斯特里克(Roman Lustrik)的评论的基础上,这是一种启发式方法,可以使用(多元线性)回归找到异常值。

假设您有样本大小。然后,执行以下操作:n

  1. 在示例上拟合回归模型。记下其残差平方和误差ř ö 一个n rtotal

  2. 对于每个样本i,在n-1个示例(不包括示例i)上拟合回归模型,并记下相应的残差平方和。ri

  3. 现在,将每个与进行比较,如果,则是候选离群值。ř ö ř < < ř ö rirtotiri<<rtotali

撇开这些候选离群点,我们可以使用减少的样本再次重复整个练习。在该算法中,我们从数据中选择了对回归拟合有不良影响的示例(这是将示例标记为异常值的一种方法)。


1
您是否对此处显示的数据集尝试过此策略?从根本上讲,您的策略等于声称可以从使凸损失函数最小化的拟合链结果中可靠地找到异常值,当存在多个单个异常值时,这是已知的谬误(此链接针对相关问题显示了这一点)查找多元离群值,但结果也适用于回归)。
user603 2014年

我很高兴删除我的答案。但是首先,我既不理解您的推荐,也不确定为什么我的回答不正确。首先是哪里的“战略”?您能指出一个具体答案吗?第二个参考的哪一页和哪一行与此处相关,并讨论了“谬误”?
Theja 2014年

1
抱歉,我现在只能回到这个话题。注释部分太短了,无法提供示例,我不会使用“答案”部分,因为这不是OP的问题。不过,您是否有时间对链接到的数据尝试使用方法?
user603 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.