统计和大数据 boosting

7

这三种方法之间的异同是什么：套袋提振堆叠？哪个最好？又为什么呢你能给我一个例子吗？

245 machine-learning boosting ensemble bagging model-averaging

2

弗里德曼（Friedman）提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂（完全成长）或更简单？选择有什么解释吗？随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解，我们通常在每次迭代中使用几乎完全增长的决策树。我对吗？

110 machine-learning random-forest cart boosting ensemble

4

如何调整xgboost树的超参数？

我有一个班级不平衡的数据，我想使用xgboost调整增强发束的超参数。问题 xgboost是否有与之等效的gridsearchcv或randomsearchcv？如果不是，建议使用什么方法来调整xgboost的参数？

68 machine-learning cross-validation xgboost boosting

5

随机森林是增强算法吗？

提升的简短定义：一组弱学习者可以创建一个强学习者吗？弱学习者被定义为仅与真实分类略相关的分类器（与随机猜测相比，它可以更好地标记示例）。随机森林的简称：随机森林种植许多分类树。要根据输入向量对新对象进行分类，请将输入向量放在森林中的每棵树上。每棵树都有一个分类，我们称该树对该类“投票”。森林选择投票最多的类别（在森林中的所有树木上）。随机森林的另一个简短定义：随机森林是一种元估计量，它适合数据集各个子样本上的许多决策树分类器，并使用求平均值来提高预测准确性和控制过度拟合。据我了解，随机森林是一种使用树作为其弱分类器的增强算法。我知道它也使用其他技术并对它们进行了改进。有人纠正我说随机森林不是增强算法吗？有人可以详细说明一下，为什么随机森林不是增强算法？

51 machine-learning random-forest boosting bagging

2

梯度增强树（GBM）与Adaboost之间差异的直观解释

我试图了解GBM和Adaboost之间的区别。这些是我到目前为止所了解的：两种提升算法都可以从先前模型的错误中学习，最后对模型进行加权求和。 GBM和Adaboost的损失函数非常相似。但是，我仍然很难理解它们之间的差异。有人可以给我直观的解释吗？

48 boosting gbm adaboost

2

线性回归的梯度提升-为什么不起作用？

在学习Gradient Boosting时，我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是，我无法想象使用线性回归的GB应用程序，实际上，当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法，然后将后续模型相加。明显的问题是，第一个模型的残差以这样的方式填充：实际上再也没有适合的回归线。我的另一个观察结果是，后续线性回归模型的总和也可以表示为单个回归模型（加上所有截距和相应的系数），因此我无法想象这会如何改善该模型。最后的观察结果是线性回归（最典型的方法）使用残差平方和作为损失函数-GB也在使用这种方法。我还考虑过降低学习率，或者在每次迭代中仅使用预测变量的子集，但是最终还是可以将其总结为单个模型表示，因此我认为这不会带来任何改善。我在这里想念什么？线性回归在某种程度上不适用于Gradient Boosting吗？是因为线性回归使用残差平方和作为损失函数吗？对弱预测变量是否有任何特殊限制，以便可以将其应用于梯度提升？

35 regression machine-learning boosting ensemble gradient

2

这是最先进的回归方法吗？

我一直关注Kaggle比赛很久了，后来我意识到许多获胜策略涉及至少使用“三巨头”之一：装袋，助推和堆叠。对于回归，而不是专注于建立一个可能的最佳回归模型，而是建立多个回归模型，例如（广义）线性回归，随机森林，KNN，NN和SVM回归模型，并以合理的方式将结果融合为一个-多次执行每种方法。当然，对每种方法的扎实理解是关键，并且可以基于线性回归模型讲述直观的故事，但是我想知道这是否已成为最先进的方法论，以便获得最佳结果。

33 predictive-models boosting bagging stacking model-averaging

1

GBM，XGBoost，LightGBM，CatBoost之间的数学差异？

GBDT系列模型有几种实现，例如： GBM XGBoost LightGBM Catboost。这些不同实现之间的数学区别是什么？即使根据此基准测试仅使用Catboost的默认参数，Catboost似乎也胜过其他实现，但它仍然非常慢。我的猜测是，catboost不使用虚拟变量，因此与其他实现相比，赋予每个（分类）变量的权重更加均衡，因此高基数变量的权重不会超过其他实现。它允许弱分类（具有低基数）进入某些树，因此性能更好。除此之外，我没有进一步的解释。

33 boosting xgboost

1

相对变量重要性的提升

我正在寻找一种解释，说明如何在梯度增强树中计算相对变量重要性，而这并不是过于笼统/过于简单：度量基于选择变量进行拆分的次数，每次拆分后对模型的平方改进加权的权重并在所有树上取平均值。[ Elith等。2008年，增强回归树的工作指南 ] 那还不如：一世2Ĵ^（T）= ∑t = 1Ĵ− 1一世2Ť^1 （vŤ= j ）一世Ĵ2^（Ť）=∑Ť=1个Ĵ-1个一世Ť2^1个（vŤ=Ĵ）\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 其中求和在终端节点树的非终端节点上，是与节点相关的拆分变量，是平方误差的相应经验改进作为分割的结果，定义为，其中分别是左子代反应手段和右子代反应手段，而是权重的相应总和。J T v t t ^ i 2 t i 2（R l，R r）= w l w rŤŤtĴĴJŤŤTvŤvŤv_{t}ŤŤt一世2Ť^一世Ť2^\hat{i_{t}^2}一世2（R升，R[R）= w升w[Rw升+ w[R（y升¯- ÿ[R¯）2一世2（[R升，[R[R）=w升w[Rw升+w[R（ÿ升¯-ÿ[R¯）2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2ÿ升¯，ÿ[R¯ÿ升¯，ÿ[R¯\bar{y_{l}}, \bar{y_{r}}w升，w[Rw升，w[Rw_{l}, w_{r}[ Friedman 2001，贪婪函数近似：梯度提升机 ] 最后，我没有发现统计学学习的内容（Hastie等人，2008年）对这里的学习非常有帮助，因为相关部分（第10.13.1页，第367页）的味道与上述第二篇参考文献非常相似（可以对此进行解释）因为弗里德曼是这本书的合著者）。 PS：我知道gbm R包中的summary.gbm给出了相对变量重要性度量。我试图探索源代码，但似乎找不到实际的计算位置。布朗尼要点：我想知道如何在R中获得这些图。

33 machine-learning data-mining predictive-models cart boosting

1

GBM参数有哪些有用的准则？

使用GBM来测试参数（例如，交互深度，最小子集，采样率等）的一些有用准则是什么？假设我有70-100个要素，一个200,000人口，并且我打算测试3和4的交互深度。显然，我需要进行一些测试，以查看哪些参数组合可以保持最佳的样本外。关于如何进行此测试设计的任何建议？

31 r hypothesis-testing cart boosting

5

GBM中的交互深度是什么意思？

我对R中gbm中的交互深度参数有一个疑问。这可能是一个菜鸟问题，对此我深表歉意，但是我认为该参数表示树中终端节点的数量基本上是X方向的，预测变量之间的相互作用？只是想了解它是如何工作的。另外，如果我有一个数据集，其中包含两个不同的因子变量，而同一个数据集，则我得到的模型就完全不同了，除了将这两个因子变量合并为一个因子（例如，因子1中的X级别，因子2中的Y级别，合并变量具有X * Y因子）。后者比前者更具预测性。我曾以为，增加互动深度会促进这种关系。

30 r machine-learning boosting gbm

1

XGBoost损失函数与泰勒展开式的近似

例如，以第次迭代的XGBoost模型的目标函数为例：ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 其中是损失函数，是第个树的输出，是正则化。近似值是快速计算的（许多）关键步骤之一：ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 其中和是损失函数的一阶和二阶导数。gigig_ihih一世h_i 我要问的是令人信服的论点，以揭开上述近似为何起作用的神秘色彩： 1）具有上述近似值的XGBoost与具有完整目标函数的XGBoost相比如何？近似中丢失了哪些潜在的有趣的高阶行为？ 2）很难形象化（并取决于损失函数），但是，如果损失函数具有较大的三次方分量，则逼近可能会失败。怎么不给XGBoost造成问题？

28 optimization loss-functions boosting xgboost taylor-series

3

在助推中，为什么学习者“弱”？

另请参阅有关stats.SE的类似问题。在AdaBoost和LPBoost之类的增强算法中，从Wikipedia已知，要合并的“弱”学习者只需要表现好于有用的机会即可。它使用的分类器可能很弱（即显示出很大的错误率），但是只要它们的性能不是随机的（二进制分类的错误率是0.5），它们就会改善最终模型。即使错误率高于随机分类器期望值的分类器也将是有用的，因为它们在分类器的最终线性组合中将具有负系数，因此表现得像它们的逆。与强者相比，弱者有什么好处？（例如，为什么不采用“强”的学习方法来提高学习能力呢？弱者有某种“最佳”的力量吗？这与合奏中的学习人数有关吗？是否有任何理论来支持这些问题的答案？

28 machine-learning theory boosting

2

提升工作如何？

最简单的了解助推方式是什么？为什么不将非常弱的分类器提升到“无限”（完美）？

23 machine-learning boosting

2

论弱学习者的“力量”

关于集成学习中的弱学习者，我有几个密切相关的问题（例如，促进学习）。这听起来可能很愚蠢，但是使用弱者而不是强者有什么好处？（例如，为什么不使用“强”的学习方法来增强？）弱学习者是否有某种“最佳”力量（例如，同时保持所有其他整体参数不变）？当谈到他们的力量时，是否有一个“最佳位置”？相对于合奏法，我们如何衡量一个弱学习者的力量。我们如何定量衡量使用集成的边际收益？我们如何比较几种弱学习算法，以确定给定的集成方法使用哪种算法？如果给定的集成方法对弱分类器的帮助大于对强分类器的帮助，我们如何告诉给定的分类器已经“太强大”而无法在增强分类器时产生任何明显的收益？

22 machine-learning boosting ensemble

Questions tagged «boosting»