Questions tagged «ensemble»

在机器学习中,集成方法结合了多种算法进行预测。套袋,加强和堆叠是一些示例。


2
梯度助推树与随机森林
弗里德曼(Friedman)提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂(完全成长)或更简单?选择有什么解释吗? 随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解,我们通常在每次迭代中使用几乎完全增长的决策树。我对吗?

15
2016年美国大选结果:预测模型出了什么问题?
首先是英国脱欧,现在是美国大选。许多模型预测大都偏离了,这里有教训可学吗?截至太平洋标准时间(PST)昨天下午4点,博彩市场仍以4比1的优势吸引了希拉里。 我认为,有真实货币的博彩市场应该充当那里所有可用预测模型的集合。因此,说这些模型做得并不好是不为过的。 我看到一个解释是,选民不愿将自己确定为特朗普的支持者。模型如何包含这样的效果? 我读到的一个宏观解释是民粹主义的兴起。那么问题是统计模型如何捕获这样的宏观趋势? 这些预测模型是否过多地强调了民意测验和情绪数据,而从该国100年的角度来看,这些数据还不够?我引用朋友的评论。

2
线性回归的梯度提升-为什么不起作用?
在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。 明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。 我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。 我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?

2
随机森林中高度相关的变量会不会扭曲准确性和特征选择?
据我了解,高度相关的变量不会在随机森林模型中引起多重共线性问题(如果我做错了,请纠正我)。但是,另一方面,如果我有太多包含相似信息的变量,那么模型在此集合上的权重会比其他集合高吗? 例如,有两组具有相同预测能力的信息(A,B)。变量,X 2,...全部包含信息A,只有Y包含信息B。当随机采样变量时,大多数树将在信息A上生长,结果信息B不完全被抓?X1X1X_1X2X2X_2X1000X1000X_{1000}

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
使用scikit-learn(或任何其他python框架)集成不同类型的回归器
我正在尝试解决回归任务。我发现3个模型对于不同的数据子集运行良好:LassoLARS,SVR和Gradient Tree Boosting。我注意到,当我使用所有这三个模型进行预测,然后制作“真实输出”和这3个模型的输出的表格时,我看到每次至少有一个模型确实接近真实输出,尽管另外两个可能相对较远。 当我计算出最小可能的误差时(如果我从每个测试示例的“最佳”预测变量中获取预测结果),我得到的误差要比任何模型的误差都要小得多。因此,我考虑过尝试将这3种不同模型的预测结合到某种整体中。问题是,如何正确执行此操作?我的所有3个模型都是使用scikit-learn构建和调整的,是否提供了某种可用于将模型打包到集合中的方法?这里的问题是,我不想只是对所有三个模型的平均预测,我想通过加权来做到这一点,应该根据特定示例的属性确定加权。 即使scikit-learn不提供此类功能,如果有人知道如何解决该任务-为数据中的每个示例计算每种模型的权重,也将是一件很好的事情。我认为这可以通过在所有这三个模型之上构建一个单独的回归器来完成,该回归器将尝试为这三个模型中的每个模型输出最佳权重,但是我不确定这是否是最佳方法。

2
论弱学习者的“力量”
关于集成学习中的弱学习者,我有几个密切相关的问题(例如,促进学习)。 这听起来可能很愚蠢,但是使用弱者而不是强者有什么好处?(例如,为什么不使用“强”的学习方法来增强?) 弱学习者是否有某种“最佳”力量(例如,同时保持所有其他整体参数不变)?当谈到他们的力量时,是否有一个“最佳位置”? 相对于合奏法,我们如何衡量一个弱学习者的力量。我们如何定量衡量使用集成的边际收益? 我们如何比较几种弱学习算法,以确定给定的集成方法使用哪种算法? 如果给定的集成方法对弱分类器的帮助大于对强分类器的帮助,我们如何告诉给定的分类器已经“太强大”而无法在增强分类器时产生任何明显的收益?

2
促进神经网络
最近,我正在研究学习增强算法,例如adaboost,梯度增强,并且我知道最常用的弱学习者是树这一事实。我真的想知道最近有一些使用神经网络作为基础学习者的成功例子(我的意思是一些论文或文章)。

3
带插入号的堆叠/组装模型
我经常发现自己使用caretR 训练了几种不同的预测模型。我将使用来在相同的交叉验证折叠上对它们进行训练caret::: createFolds,然后根据交叉验证的误差选择最佳的模型。 但是,在独立测试集上,来自多个模型的中值预测通常要优于最佳单个模型。我正在考虑编写一些用于堆叠/组装插入符模型的函数,这些函数使用相同的交叉验证折叠进行训练,例如,通过对每个折叠上的每个模型进行中位数预测,或通过训练“元模型”。 当然,这可能需要外部交叉验证循环。是否有人知道用于集成插入符号模型的任何现有软件包/开源代码(并可能对这些集成进行交叉验证)?
21 r  caret  ensemble 

3
结合机器学习模型
我是数据挖掘/机器学习/等方面的新手。并且一直在阅读有关将多个模型和同一模型的运行组合起来以改善预测的几种方法。 通过阅读几篇论文(在理论和希腊字母上通常很有趣并且很出色,但是在代码和实际示例上却很短),我的印象是它应该像这样: 我采用一个模型(knn,RF等),并获得0到1之间的分类器列表。我的问题是如何合并这些分类器列表中的每一个?我是否在训练集中运行相同的模型,以使进入最终模型的列数相同或还有其他技巧? 如果有任何建议/示例包含R代码,那就太好了。 注意:这是针对训练集中有100k行,测试集中有70k和10列的数据集。

1
集成学习的k折交叉验证
我对如何对数据进行分区以进行整体学习的k倍交叉验证感到困惑。 假设我有一个用于分类的整体学习框架。我的第一层包含分类模型,例如svm,决策树。 我的第二层包含一个投票模型,该模型结合了第一层的预测并给出了最终预测。 如果我们使用5折交叉验证,我正在考虑使用5折,如下所示: 3折训练第一层 1折训练第二层 1折测试 这是正确的方法吗?第一和第二层的训练数据是否应该独立?我认为它们应该是独立的,这样整体学习框架将很健壮。 我的朋友建议第一层和第二层的训练数据应该相同,即 4折训练第一层和第二层 1折测试 这样,我们将获得更准确的整体学习框架错误,并且该框架的迭代调整将更准确,因为它基于单个训练数据。而且,第二层可能偏向于独立训练数据 任何建议都将不胜感激

3
什么时候不应该使用集成分类器?
通常,在目标是准确预测样本外类成员身份的分类问题中,我什么时候不应该使用集合分类器? 这个问题与为什么不总是使用集成学习紧密相关?。这个问题问为什么我们不一直使用合奏。我想知道是否存在某些情况,即合奏比非合奏更糟(不仅仅是“不更好,更浪费时间”)。 通过“整体分类器”,我专门指的是诸如AdaBoost和随机森林之类的分类器,而不是例如滚动自带的增强支持向量机。

5
合奏方法如何胜过其所有成分?
我对整体学习有些困惑。简而言之,它可以运行k个模型并获得这k个模型的平均值。如何保证k个模型的平均值比任何一个模型都好?我确实知道这种偏见是“分散”或“平均”的。但是,如果集成中有两个模型(即k = 2),而其中一个模型比另一个模型差,该集合不会比更好的模型差吗?

3
模式识别任务中最先进的集成学习算法?
这个问题的结构如下:首先,我提供整体学习的概念,进一步提供模式识别任务的列表,然后给出整体学习算法的示例,最后介绍我的问题。那些不需要所有补充信息的人可能只是看标题,直接回答我的问题。 什么是整体学习? 根据维基百科的文章: 在统计和机器学习中,集成方法使用多种学习算法来获得比单独从任何组成学习算法中获得的更好的预测性能。与通常是无限的统计力学中的统计集合不同,机器学习集合仅指的是一组有限的替代模型的具体有限集合,但通常允许在这些替代模型之间存在更灵活的结构。 模式识别任务的示例: 光学字符识别 条码识别 车牌识别 人脸检测 语音识别 影像辨识 文件分类 集成学习算法的示例: 以下用于PR任务的集成学习算法(根据Wiki): 集成学习算法(将多种学习算法结合在一起的监督元算法): Boosting(主要用于减少偏见的机器学习集成元算法,以及在监督学习中的差异,以及将弱学习者转换为强学习者的一系列机器学习算法) Bootstrap聚合(“ 装袋 ”)(一种机器学习集成元算法,旨在提高统计分类和回归中使用的机器学习算法的稳定性和准确性)。 集合平均(创建多个模型并将其组合以产生所需输出的过程,而不是仅创建一个模型。通常,一组模型的性能要优于任何单个模型,因为模型的各种错误会“平均化”。 ) 专家混合,专家分层混合 不同的实现 神经网络的集合(一组神经网络模型,通过对各个模型的结果求平均值来进行决策)。 随机森林(一种用于分类,回归和其他任务的整体学习方法,通过在训练时构造大量决策树并输出作为个体的类(分类)或均值预测(回归)模式的类来进行操作树木)。 AdaBoost(将其他学习算法(“弱学习者”)的输出合并为一个加权总和,该总和代表增强分类器的最终输出)。 另外: 使用一个神经网络组合不同分类器的方法 胜任范围法 我的问题 哪种集成学习算法被认为是当今最先进的,并且在企业和组织中实际用于实践中(用于面部检测,车牌识别,光学字符识别等)?应该使用集成学习算法来提高识别精度并导致更好的计算效率。但是,现实中的事情会这样吗? 哪种集成方法可能在模式识别任务中显示出更好的分类准确性和性能?也许,某些方法现在已经过时,或者已经证明无效。由于某些新算法的优势,现在可能不再使用集成方法了。那些在该领域有经验或在该领域有足够知识的人,您能帮助澄清问题吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.