为什么增强方法对异常值敏感


12

我发现有许多文章指出增强方法对异常值很敏感,但没有文章解释原因。

以我的经验,离群值对于任何机器学习算法都是不利的,但是为什么提升方法特别敏感?

下列算法如何在对异常值的敏感性方面进行排名:增强树,随机森林,神经网络,SVM和简单回归方法(例如逻辑回归)?


1
我进行了编辑以尝试阐明(同样,如果您在行的开头放置空格,stackexchange会将其视为代码)。对于第二段,提升是什么?您可能必须定义灵敏度。
杰里米·迈尔斯

1
此外,离群值和Noice不是同一回事。
杰里米·迈尔斯

我不会将此问题标记为已解决。尚不清楚增强实际上是否比其他方法遭受更大的异常值。似乎被接受的答案被接受主要是因为确认偏差。
rinspy

您可以分享其中一些文章吗?
acnalb '18

Answers:


11

离群值可能不利于增强,因为增强值会根据先前树的残差/误差构建每棵树。离群值比非离群值具有更大的残差,因此梯度增强将把过多的注意力集中在那些点上。


2
如果您可以给OP提供更多数学细节,那就更好了!
Metariat '16

5
@Matemattica我不同意在此处添加数学细节将提供更多的清晰度。它只是树梯度的象征,是随后树的学习率。
Ryan Zotti

1
@RyanZotti:我同意Metariat。更正式的表示法将解决一些混乱。例如,在“离群值将比非离群值具有更大的残差”一句中,您的意思是残差到什么程度?估计的模型还是真实的模型?如果是前者,则通常是不正确的;如果是后者,则是无关紧要的。
user603

1

您指定的算法用于分类,因此我假设您不是在目标变量中表示异常值,而是在输入变量中表示异常值。Boosted Tree方法对于输入特征中的异常值应该相当健壮,因为基础学习者是树拆分。例如,如果拆分为x > 35 ,则将5,000,000和5,000,000视为相同。这可能不是好事,但这是一个不同的问题。

相反,如果您正在谈论目标变量中的回归和离群值,那么增强树方法的敏感性将取决于所使用的成本函数。当然,平方误差对离群值很敏感,因为差异是平方的,并且由于增强尝试适合损失的(梯度),因此平方误差将极大地影响下一棵树。但是,还有更多健壮的误差函数可用于增强树方法,例如,Huber损耗和绝对损耗。


0

在增强中,我们尝试选择算法结果较差的数据集,而不是随机选择数据子集。这些困难的例子是学习的重要例子,因此,如果数据集有很多异常值,并且算法在这些例子上的表现不佳,则不是学习那些困难的例子,算法将尝试从这些例子中选择子集。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.