线性回归的梯度提升-为什么不起作用?


35

在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。

明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。

我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。

我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?


直观上,我倾向于认为您不应该使用分类器,因为它们的总和是相同类型的分类器。例如,线性函数之和是线性函数。
user18764 '18

我知道这很古老,但是我的理解是,提升步骤可以将当前残差和基础学习者(在您的情况下是线性回归)之间的损失函数乘以学习率,从而使其最小化。因此,尽管基础学习者将mse最小化,但助推器使用的损失函数可能是相同的MAPE?
大卫·沃特沃思

Answers:


35

我在这里想念什么?

我不认为您真的缺少任何东西!

另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这将如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。

在我看来,您已经把它钉在了那里,并简短地证明了线性回归在这种情况下胜过线性回归。

令人讨厌的是,这两种方法都试图解决以下优化问题

β^=argminβ(yXβ)t(yXβ)

线性回归只是发现您可以通过找到线性方程的解直接求解它

XtXβ=Xty

这将自动为您提供所有可能性中最佳的值。β

无论您的弱分类器是单变量回归还是多变量回归,Boosting都会为您提供一系列系数矢量。如您所见,最终的模型预测是一个总和,并且具有与完整线性回归器相同的功能形式β1,β2,

Xβ1+Xβ2++Xβn=X(β1+β2++βn)

选择这些步骤中的每一个以进一步减小平方误差的总和。但是我们仅通过执行一个完整的线性回归就可以找到该函数形式内平方误差的最小和。

在这种情况下进行增强的可能防御方法可能是它提供的隐式正则化。可能(我还没有玩过),您可以使用渐变增强器的提早停止功能以及交叉验证,以停止完全线性回归。这将为您的回归提供正则化,并可能有助于过度拟合。这不是特别实用,因为在这种情况下,人们具有非常有效且广为人知的选择,例如岭回归和弹性网。

当周围没有简洁的功能形式时,助推器就会发光。增强决策树可以使回归器/分类器的功能形式缓慢发展以适应数据,通常会导致复杂的形状,而这是人们手工和眼睛无法想象的。当一个简单的功能形式需要,增压,不会帮助你找到它(或者至少可能是觉得这是一个相当低效的方式)。


2
我喜欢这个答案,但有点古怪,回归的是最好的线性无偏估计量。降低无偏性可能会让您做得更好,特别是在高多重共线性下,这是您最后未曾想到的。β
乔纳森·利西奇

这是一个非常好的和明确的答案。感谢Matthew的确认/解释!
Matek

“当周围没有简洁的功能形式时,助推器就会发光。”这就是我想要的答案。所以,只想确认一下,您是说我的问题的答案是肯定的,但是没有人使用线性模型作为基础学习者吗?,stats.stackexchange.com / questions / 231286 /…
Haitao Du

5

最小二乘投影矩阵为

X(XTX)1XT

我们可以使用它直接获得我们的预测值,例如y^

y^=X(XTX)1XTy

假设您拟合回归,然后计算残差

e=yy^=yX(XTX)1XTy

然后在下一次回归中将此残差矢量e用作新的因变量。再次使用投影矩阵直接计算第二次回归的预测,并将这些新预测称为:y^2

y^2=X(XTX)1XTe=X(XTX)1XT(yX(XTX)1XTy)=X(XTX)1XTyX(XTX)1XTX(XTX)1XTy=X(XTX)1XTyX(XTX)1XTy=0

这样做的原因是,通过构造从初始回归得到的残差矢量e与X空间正交,即是从y到X空间的正交投影(您会在文献中找到直观看到的漂亮图片)。y^

这意味着先拟合一个回归然后对来自第一次回归的残差进行新回归的简单方法将不会产生任何有意义的结果,因为X与e完全不相关。

我写这篇文章是因为您说的是,实际上没有新的行适合于上面的推导。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.