随机森林通过创建决策树的集合来工作,其中每棵树都是使用原始训练数据的引导样本(输入变量和观察值的样本)创建的。
可以将类似的过程应用于线性回归吗?使用随机引导样本为k个回归中的每一个创建k个线性回归模型
不创建类似模型的“随机回归”的原因是什么?
谢谢。如果有什么我只是从根本上误会了,请告诉我。
随机森林通过创建决策树的集合来工作,其中每棵树都是使用原始训练数据的引导样本(输入变量和观察值的样本)创建的。
可以将类似的过程应用于线性回归吗?使用随机引导样本为k个回归中的每一个创建k个线性回归模型
不创建类似模型的“随机回归”的原因是什么?
谢谢。如果有什么我只是从根本上误会了,请告诉我。
Answers:
用机器学习术语来表达@ziggystar的响应:引导聚合技术(例如,Random Forests)背后的想法是将许多低偏差,高方差模型拟合到具有“随机性”或“不稳定”元素的数据中。对于随机森林,通过自举和选择一组随机特征来拆分树的每个节点,会增加不稳定性。在这些嘈杂但低偏置的树上求平均值,可以减轻任何单个树的高方差。
回归/分类树是“低偏差,高方差”模型,而线性回归模型通常是相反的“高偏差,低方差”模型。因此,线性模型经常面临的问题是减少偏差,而不是减少方差。引导聚合根本无法做到这一点。
另外一个问题是,自举可能无法在典型的线性模型中提供足够的“随机性”或“不稳定性”。我希望回归树对自举样本的随机性更为敏感,因为每个叶子通常只包含少数几个数据点。另外,可以通过在每个节点的变量的随机子集上拆分树来随机生长回归树。请参阅前面的问题,以了解为什么这很重要:为什么基于m个随机特征分割随机森林?
综上所述,您当然可以在线性模型[LINK]上使用引导程序,这在某些情况下非常有用。但是,动机与引导聚合技术有很大不同。
a_0 + a_1 * x_1 + ... + a_d * x_d
,所得的平均线性函数(自举汇总后)仍具有与您开始的线性函数形式相同的线性函数形式(即“基础学习者”)。