可以将随机森林方法论应用于线性回归吗?


14

随机森林通过创建决策树的集合来工作,其中每棵树都是使用原始训练数据的引导样本(输入变量和观察值的样本)创建的。

可以将类似的过程应用于线性回归吗?使用随机引导样本为k个回归中的每一个创建k个线性回归模型

不创建类似模型的“随机回归”的原因是什么?

谢谢。如果有什么我只是从根本上误会了,请告诉我。


自举聚合树时,每增加一棵树,总体回归函数就会变得越来越复杂。另一方面,当自举汇总形式的线性函数时a_0 + a_1 * x_1 + ... + a_d * x_d,所得的平均线性函数(自举汇总后)仍具有与您开始的线性函数形式相同的线性函数形式(即“基础学习者”)。
Andre Holzner 2014年

1
@Andre Holzner-您所说的是真的,但是,但是,但是...执行此随机forrest实际上是正则化的一种形式,与ridging相似。我告诉你一个秘密,回归树实际上是线性模型-与样条曲线相似的类。戴上我的贝叶斯帽子,随机的阿甘正则化函数很可能大致对应于贝叶斯上下文中使用的“尖峰和台阶”先验。
probabilityislogic

@probabilityislogic,您能解释一下吗?
西蒙·匡

你能想到的树木作为线性模型ž 是一个设计矩阵指示哪些终端节点的每个观测属于为树,和θ 是终端节点预测的对应矢量。可以用这种方式描述任何树-选择一棵树等效于Z t空间中的标准线性模型选择- 我认为其中有2 n种可能的“终端节点” c配置(其中n是训练样本大小)。y=Ztθt+eZttθtZt2nn
概率逻辑

Answers:


5

我部分不同意当前的答案,因为方法论随机森林是建立在引入方差(建立在自举样本上的CART +随机子空间方法)上来使其独立的。一旦有了正交树,则其预测的平均值往往会(在许多情况下)比平均树的预测要好(由于詹森不等式)。尽管CART在接受这种处理时具有明显的优势,但该方法论绝对适用于任何模型,线性模型也不例外。这是您所需要的R包。它提供了一个很好的教程,介绍如何调整和解释它们以及参考书目:随机广义线性模型


14

用机器学习术语来表达@ziggystar的响应:引导聚合技术(例如,Random Forests)背后的想法是将许多低偏差,高方差模型拟合到具有“随机性”或“不稳定”元素的数据中。对于随机森林,通过自举和选择一组随机特征来拆分树的每个节点,会增加不稳定性。在这些嘈杂但低偏置的树上求平均值,可以减轻任何单个树的高方差。

回归/分类树是“低偏差,高方差”模型,而线性回归模型通常是相反的“高偏差,低方差”模型。因此,线性模型经常面临的问题是减少偏差,而不是减少方差。引导聚合根本无法做到这一点。

另外一个问题是,自举可能无法在典型的线性模型中提供足够的“随机性”或“不稳定性”。我希望回归树对自举样本的随机性更为敏感,因为每个叶子通常只包含少数几个数据点。另外,可以通过在每个节点的变量的随机子集上拆分树来随机生长回归树。请参阅前面的问题,以了解为什么这很重要:为什么基于m个随机特征分割随机森林?

综上所述,您当然可以在线性模型[LINK]上使用引导程序,这在某些情况下非常有用。但是,动机与引导聚合技术有很大不同。


感谢您的链接和回复。如果随机性方法可用于“低偏差,高方差”模型,是否有任何方法可以处理相反类型的模型“高偏差,低方差”?
瑞克

如果您具有低偏差,高方差模型,那么像装袋这样的方法可以在偏差略有增加的情况下减小方差。如果您具有较高的偏倚,较低的方差,请使用偏倚较小且方差较大的模型-例如多项式回归或更一般的核方法。
2014年

10

kk

这就是为什么对线性模型进行“随机”处理不如对决策树进行处理那么有吸引力的原因:

由大量样本创建的大型决策树很可能会过度拟合数据,而随机森林方法则依靠许多小树的投票来对抗这种影响。

另一方面,线性回归是一个不太容易过度拟合的模型,因此从一开始就在完整样本上进行训练不会受到损害。即使您有很多回归变量,也可以应用其他技术(例如正则化)来解决过度拟合问题。


0

k

X1,X2,...,XnBe(p)
p1p
θ=1{p>0}
Xi=1θ=1θθ
Bias bagging=Prob(in a bootstrap sample X(1)=...=X(n)=0)>0,
θ=1

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.