Questions tagged «bagging»

套袋或引导聚合是模型平均的一种特殊情况。给定标准训练集,套袋生成 自举新的训练集,然后在 生成的数据集被平均。套袋可以稳定一些不稳定方法(例如树木)的结果。


5
随机森林是增强算法吗?
提升的简短定义: 一组弱学习者可以创建一个强学习者吗?弱学习者被定义为仅与真实分类略相关的分类器(与随机猜测相比,它可以更好地标记示例)。 随机森林的简称: 随机森林种植许多分类树。要根据输入向量对新对象进行分类,请将输入向量放在森林中的每棵树上。每棵树都有一个分类,我们称该树对该类“投票”。森林选择投票最多的类别(在森林中的所有树木上)。 随机森林的另一个简短定义: 随机森林是一种元估计量,它适合数据集各个子样本上的许多决策树分类器,并使用求平均值来提高预测准确性和控制过度拟合。 据我了解,随机森林是一种使用树作为其弱分类器的增强算法。我知道它也使用其他技术并对它们进行了改进。有人纠正我说随机森林不是增强算法吗? 有人可以详细说明一下,为什么随机森林不是增强算法?

2
这是最先进的回归方法吗?
我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。 对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。 当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。


3
什么时候不应该使用集成分类器?
通常,在目标是准确预测样本外类成员身份的分类问题中,我什么时候不应该使用集合分类器? 这个问题与为什么不总是使用集成学习紧密相关?。这个问题问为什么我们不一直使用合奏。我想知道是否存在某些情况,即合奏比非合奏更糟(不仅仅是“不更好,更浪费时间”)。 通过“整体分类器”,我专门指的是诸如AdaBoost和随机森林之类的分类器,而不是例如滚动自带的增强支持向量机。

1
套袋的理论保证是什么
我(大约)听说: 套袋是一种减少预测器/估计器/学习算法的方差的技术。 但是,我从未见过这种说法的正式数学证明。有谁知道为什么这在数学上是正确的?似乎这是一个广为接受/已知的事实,我希望直接引用它。如果没有,我会感到惊讶。另外,有人知道这对偏差有什么影响吗? 是否有任何其他理论上的保证可以保证任何人都知道并认为很重要并想分享的方法?

1
促进和袋装树木(XGBoost,LightGBM)
有很多关于袋装 或 助树的想法的博客文章,YouTube视频等。我的一般理解是,每个的伪代码为: 套袋: 取N个随机样本,占样本的x%和特征的y% 在每个N上拟合您的模型(例如决策树) 预测每个N 对预测取平均以得出最终预测 提升: 使模型(例如决策树)适合您的数据 获取残差 使模型适合残差 进行2次N轮助推 最终预测是顺序预测变量的加权和。 我将对上面的理解进行任何澄清,但是我想要的问题如下: XGBoost和LightGBM都具有允许打包的参数。该应用程序不是Bagging OR Boosting(每篇博客文章都在谈论),而是Bagging AND Boosting。在何时何地进行装袋和装袋的伪代码是什么? 我以为它是“袋装升压树”,但似乎是“升压袋装树”。差异似乎很大。 袋装助推树: 取N个随机样本,占样本的x%和特征的y% 在N个样本中的每个样本上拟合Boosted树 预测每个N 对预测取平均以得出最终预测 这似乎是最好的方法。毕竟,增加压力的风险是过度安装,装袋的主要好处是减少过度安装;打包一堆增强模型似乎是个好主意。 但是,通过浏览(例如,scikit-learn gradient_boosting.py(用于示例装袋,但不选择随机特征)),并在有关LightGBM和XGBoost的帖子中整理一些小块,看起来XGBoost和LightGBM的工作方式如下: 增强袋装树: 使决策树适合您的数据 对于我在N轮助推中: 获取残差 如果我mod bag_frequency == 0(即每5轮装袋): 取一个随机样本,占样本的x%和特征的y%;继续使用此随机样本 使树适合残差 最终预测是顺序预测变量的加权和。 请在这里更正我的理解并填写详细信息。Boosted Bagged树(每个bag_frequency仅包含1个随机树)似乎不如Bagged Boosted Tree强大。

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
为什么scikit-learn引导程序功能会对测试集重新采样?
当使用自举进行模型评估时,我一直认为直接购买的样本可以直接用作测试集。但是,对于已弃用的 scikit-learnBootstrap方法来说似乎不是这种情况,该方法似乎是通过从图纸中提取测试数据来构建测试集,并替换了现成的数据子集。这背后的统计原因是什么?在某些特定情况下,该技术比仅对袋外样本进行评估更好,反之亦然吗?

1
哪些套袋算法值得随机森林公司接班?
对于增强算法,我想说它们发展得很好。1995年初引入了AdaBoost,然后过了一段时间,它是Gradient Boosting Machine(GBM)。最近,在2015年左右推出了XGBoost,它非常准确,可以处理过度拟合,并且已成为多次Kaggle竞赛的获胜者。LightGBM在2017年由Microsoft引入,与XGBoost相比,它提供的培训时间大大减少。此外,Yandex推出了CatBoost,用于处理分类功能。 随机森林(Random Forest)于2000年代初推出,但是有没有值得的继任者?我认为,如果存在一种比Random Forest更好的装袋算法(可以在实践中轻松应用),它将在像Kaggle这样的地方引起关注。另外,为什么增强成为更流行的集成技术,是因为您可以构建更少的树以获得最佳预测?

5
随机森林和决策树算法
随机森林是遵循装袋概念的决策树的集合。当我们从一个决策树移动到下一个决策树时,从上一个决策树中学到的信息将如何前进到下一个决策树? 因为,按照我的理解,没有什么像训练过的模型那样可以为每个决策树创建然后在下一个决策树开始从错误分类的错误中学习之前加载的。 那么它是怎样工作的?

3
随机森林和增强算法是参数化还是非参数化?
通过阅读出色的统计模型:这两种文化(Breiman 2001),我们可以抓住传统统计模型(例如线性回归)和机器学习算法(例如Bagging,Random Forest,Boosted tree ...)之间的所有差异。 布雷曼批评数据模型(参数化),因为它们基于这样的假设:观测值是由统计学家规定的已知的正式模型生成的,该模型可能无法很好地模仿自然。另一方面,机器学习算法不采用任何形式化的模型,而是直接从数据中学习输入变量和输出变量之间的关联。 我意识到Bagging / RF和Boosting也是某种参数:例如,ntree,RF中的mtry,学习率,包率,随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值,因此我们还需要根据数据估算这些参数。 那有什么区别呢?RF和Boosted Trees参数模型吗?

1
为什么不总是使用集成学习?
在我看来,集成学习将始终比仅使用单个学习假设提供更好的预测性能。 那么,为什么我们不一直使用它们呢? 我的猜测可能是因为计算方面的限制?(即使那样,我们也使用弱预测变量,所以我也不知道)。

2
为什么袋装树/随机森林树比单个决策树具有更高的偏差?
如果我们考虑一个完整的决策树(即未修剪的决策树),则它具有高方差和低偏差。 套袋和随机森林使用这些高方差模型并对其进行汇总,以减少方差,从而提高预测准确性。套袋和随机森林都使用Bootstrap采样,并且如“统计学习的要素”中所述,这会增加单个树中的偏差。 此外,由于随机森林方法限制了允许在每个节点上拆分的变量,因此单个随机森林树的偏差会进一步增加。 因此,如果套袋和随机森林中单棵树的偏差增加不会“过度”使变化减少,则只能提高预测精度。 这使我想到以下两个问题:1)我知道使用引导程序抽样时,(几乎总是)我们在引导程序样本中会有一些相同的观察结果。但是,为什么这会导致套袋/随机森林中单个树木的偏见增加?2)此外,为什么对每个拆分中要拆分的可用变量的限制会导致随机森林中各个树的偏倚更高?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.