Questions tagged «boosting»

一系列算法将弱预测模型组合成强预测模型。最常用的方法称为梯度增强,最常用的弱模型是分类/回归树。


2
梯度助推树与随机森林
弗里德曼(Friedman)提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂(完全成长)或更简单?选择有什么解释吗? 随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解,我们通常在每次迭代中使用几乎完全增长的决策树。我对吗?


5
随机森林是增强算法吗?
提升的简短定义: 一组弱学习者可以创建一个强学习者吗?弱学习者被定义为仅与真实分类略相关的分类器(与随机猜测相比,它可以更好地标记示例)。 随机森林的简称: 随机森林种植许多分类树。要根据输入向量对新对象进行分类,请将输入向量放在森林中的每棵树上。每棵树都有一个分类,我们称该树对该类“投票”。森林选择投票最多的类别(在森林中的所有树木上)。 随机森林的另一个简短定义: 随机森林是一种元估计量,它适合数据集各个子样本上的许多决策树分类器,并使用求平均值来提高预测准确性和控制过度拟合。 据我了解,随机森林是一种使用树作为其弱分类器的增强算法。我知道它也使用其他技术并对它们进行了改进。有人纠正我说随机森林不是增强算法吗? 有人可以详细说明一下,为什么随机森林不是增强算法?

2
梯度增强树(GBM)与Adaboost之间差异的直观解释
我试图了解GBM和Adaboost之间的区别。 这些是我到目前为止所了解的: 两种提升算法都可以从先前模型的错误中学习,最后对模型进行加权求和。 GBM和Adaboost的损失函数非常相似。 但是,我仍然很难理解它们之间的差异。有人可以给我直观的解释吗?
48 boosting  gbm  adaboost 

2
线性回归的梯度提升-为什么不起作用?
在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。 明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。 我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。 我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?

2
这是最先进的回归方法吗?
我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。 对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。 当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。

1
GBM,XGBoost,LightGBM,CatBoost之间的数学差异?
GBDT系列模型有几种实现,例如: GBM XGBoost LightGBM Catboost。 这些不同实现之间的数学区别是什么? 即使根据此基准测试仅使用Catboost的默认参数,Catboost似乎也胜过其他实现,但它仍然非常慢。 我的猜测是,catboost不使用虚拟变量,因此与其他实现相比,赋予每个(分类)变量的权重更加均衡,因此高基数变量的权重不会超过其他实现。它允许弱分类(具有低基数)进入某些树,因此性能更好。除此之外,我没有进一步的解释。
33 boosting  xgboost 

1
相对变量重要性的提升
我正在寻找一种解释,说明如何在梯度增强树中计算相对变量重要性,而这并不是过于笼统/过于简单: 度量基于选择变量进行拆分的次数,每次拆分后对模型的平方改进加权的权重并在所有树上取平均值。[ Elith等。2008年,增强回归树的工作指南 ] 那还不如: 一世2Ĵ^(T)= ∑t = 1Ĵ− 1一世2Ť^1 (vŤ= j )一世Ĵ2^(Ť)=∑Ť=1个Ĵ-1个一世Ť2^1个(vŤ=Ĵ)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 其中求和在终端节点树的非终端节点上,是与节点相关的拆分变量,是平方误差的相应经验改进作为分割的结果,定义为,其中分别是左子代反应手段和右子代反应手段,而是权重的相应总和。J T v t t ^ i 2 t i 2(R l,R r)= w l w rŤŤtĴĴJŤŤTvŤvŤv_{t}ŤŤt一世2Ť^一世Ť2^\hat{i_{t}^2}一世2(R升,R[R)= w升w[Rw升+ w[R(y升¯- ÿ[R¯)2一世2([R升,[R[R)=w升w[Rw升+w[R(ÿ升¯-ÿ[R¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2ÿ升¯,ÿ[R¯ÿ升¯,ÿ[R¯\bar{y_{l}}, \bar{y_{r}}w升,w[Rw升,w[Rw_{l}, w_{r}[ Friedman 2001,贪婪函数近似:梯度提升机 ] 最后,我没有发现统计学学习的内容(Hastie等人,2008年)对这里的学习非常有帮助,因为相关部分(第10.13.1页,第367页)的味道与上述第二篇参考文献非常相似(可以对此进行解释)因为弗里德曼是这本书的合著者)。 PS:我知道gbm R包中的summary.gbm给出了相对变量重要性度量。我试图探索源代码,但似乎找不到实际的计算位置。 布朗尼要点:我想知道如何在R中获得这些图。

1
GBM参数有哪些有用的准则?
使用GBM来测试参数(例如,交互深度,最小子集,采样率等)的一些有用准则是什么? 假设我有70-100个要素,一个200,000人口,并且我打算测试3和4的交互深度。显然,我需要进行一些测试,以查看哪些参数组合可以保持最佳的样本外。关于如何进行此测试设计的任何建议?

5
GBM中的交互深度是什么意思?
我对R中gbm中的交互深度参数有一个疑问。这可能是一个菜鸟问题,对此我深表歉意,但是我认为该参数表示树中终端节点的数量基本上是X方向的,预测变量之间的相互作用?只是想了解它是如何工作的。另外,如果我有一个数据集,其中包含两个不同的因子变量,而同一个数据集,则我得到的模型就完全不同了,除了将这两个因子变量合并为一个因子(例如,因子1中的X级别,因子2中的Y级别,合并变量具有X * Y因子)。后者比前者更具预测性。我曾以为,增加互动深度会促进这种关系。

1
XGBoost损失函数与泰勒展开式的近似
例如,以第次迭代的XGBoost模型的目标函数为例:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 其中是损失函数,是第个树的输出,是正则化。近似值是快速计算的(许多)关键步骤之一:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 其中和是损失函数的一阶和二阶导数。gigig_ihih一世h_i 我要问的是令人信服的论点,以揭开上述近似为何起作用的神秘色彩: 1)具有上述近似值的XGBoost与具有完整目标函数的XGBoost相比如何?近似中丢失了哪些潜在的有趣的高阶行为? 2)很难形象化(并取决于损失函数),但是,如果损失函数具有较大的三次方分量,则逼近可能会失败。怎么不给XGBoost造成问题?

3
在助推中,为什么学习者“弱”?
另请参阅有关stats.SE的类似问题。 在AdaBoost和LPBoost之类的增强算法中,从Wikipedia已知,要合并的“弱”学习者只需要表现好于有用的机会即可。 它使用的分类器可能很弱(即显示出很大的错误率),但是只要它们的性能不是随机的(二进制分类的错误率是0.5),它们就会改善最终模型。即使错误率高于随机分类器期望值的分类器也将是有用的,因为它们在分类器的最终线性组合中将具有负系数,因此表现得像它们的逆。 与强者相比,弱者有什么好处?(例如,为什么不采用“强”的学习方法来提高学习能力呢? 弱者有某种“最佳”的力量吗?这与合奏中的学习人数有关吗? 是否有任何理论来支持这些问题的答案?


2
论弱学习者的“力量”
关于集成学习中的弱学习者,我有几个密切相关的问题(例如,促进学习)。 这听起来可能很愚蠢,但是使用弱者而不是强者有什么好处?(例如,为什么不使用“强”的学习方法来增强?) 弱学习者是否有某种“最佳”力量(例如,同时保持所有其他整体参数不变)?当谈到他们的力量时,是否有一个“最佳位置”? 相对于合奏法,我们如何衡量一个弱学习者的力量。我们如何定量衡量使用集成的边际收益? 我们如何比较几种弱学习算法,以确定给定的集成方法使用哪种算法? 如果给定的集成方法对弱分类器的帮助大于对强分类器的帮助,我们如何告诉给定的分类器已经“太强大”而无法在增强分类器时产生任何明显的收益?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.