Questions tagged «random-forest»

随机森林是一种将许多决策树的输出组合在一起的机器学习方法。

9
从随机森林中获取知识
随机森林被认为是黑匣子,但是最近我在想可以从随机森林中获得什么知识? 最明显的是变量的重要性,在最简单的变体中,只需计算变量的出现次数即可完成。 我正在考虑的第二件事是交互。我认为,如果树的数量足够大,则可以测试变量对的出现次数(类似于卡方独立性)。第三件事是变量的非线性。我的第一个想法只是看可变Vs得分的图表,但我不确定这是否有意义。 添加23.01.2012 动机 我想利用这些知识来改进logit模型。我认为(或至少希望如此)可以找到被忽略的相互作用和非线性。

2
梯度助推树与随机森林
弗里德曼(Friedman)提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂(完全成长)或更简单?选择有什么解释吗? 随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解,我们通常在每次迭代中使用几乎完全增长的决策树。我对吗?


2
调整随机森林的实用问题
我的问题是关于随机森林。这个美丽的分类器的概念对我来说很清楚,但是仍然存在许多实际使用问题。不幸的是,我没有找到任何有关RF的实用指南(我一直在寻找类似Geoffrey Hinton撰写的“训练受限的Boltzman机器的实用指南”之类的内容,但搜索的是Random Forests! 在实践中如何调整RF? 树木数量越大总会更好吗?是否有合理的限制(当然,除了压缩容量以外),树木数量的增加以及如何针对给定的数据集进行估算? 树木的深度怎么样?如何选择合理的一个?在一个森林中试验不同长度的树木有感觉吗?对此有什么指导? 训练射频时还有其他参数值得一看吗?用于建造单个树木的算法可能是? 当他们说RF能够抵抗过度拟合时,这是真的吗? 我将不胜感激,在搜索过程中可能错过的任何答案和/或指向指南或文章的链接。

3
如何实际从randomForest :: getTree()绘制示例树?[关闭]
任何人都有关于如何从以下位置实际绘制几个示例树的库或代码建议: getTree(rfobj, k, labelVar=TRUE) (是的,我知道您不应该在操作上进行此操作,RF是一个黑匣子,依此类推。我想在视觉上检查树,以查看是否有任何违反直觉的变量,需要进行调整/组合/离散化/转换,检查我的编码因子的效果如何,等等) 先前的问题,没有合适的答案: 如何使随机森林更具解释性? 同时从随机森林中获取知识 我实际上想绘制一个样本树。所以,现在就不要与我争论。我不是在问varImpPlot(变量重要性图)或partialPlot或MDSPlot,或这些其他图,我已经知道了,但是它们不能代替查看示例树。是的,我可以目视检查的输出getTree(...,labelVar=TRUE)。 (我想plot.rf.tree()贡献将是非常受欢迎的。)

6
随机森林模型的预测是否具有预测间隔?
如果运行randomForest模型,则可以基于该模型进行预测。有没有一种方法可以获取每个预测的预测间隔,以使我知道模型如何“确定”其答案。如果可能的话,是仅仅基于整个模型的因变量的可变性,还是根据特定预测所遵循的特定决策树,其间隔会变宽还是变窄?

5
随机森林是增强算法吗?
提升的简短定义: 一组弱学习者可以创建一个强学习者吗?弱学习者被定义为仅与真实分类略相关的分类器(与随机猜测相比,它可以更好地标记示例)。 随机森林的简称: 随机森林种植许多分类树。要根据输入向量对新对象进行分类,请将输入向量放在森林中的每棵树上。每棵树都有一个分类,我们称该树对该类“投票”。森林选择投票最多的类别(在森林中的所有树木上)。 随机森林的另一个简短定义: 随机森林是一种元估计量,它适合数据集各个子样本上的许多决策树分类器,并使用求平均值来提高预测准确性和控制过度拟合。 据我了解,随机森林是一种使用树作为其弱分类器的增强算法。我知道它也使用其他技术并对它们进行了改进。有人纠正我说随机森林不是增强算法吗? 有人可以详细说明一下,为什么随机森林不是增强算法?


4
R中的随机森林计算时间
我在R中使用具有10,000行和34个特征的party包,并且某些要素特征具有300多个级别。计算时间过长。(到目前为止,已花费了3个小时,但尚未完成。) 我想知道哪些元素对随机森林的计算时间有很大影响。它的因素过多吗?是否有优化的方法来缩短RF计算时间?
48 r  random-forest 


5
随机森林算法的优化实现
我注意到,有一些随机森林的实现,例如ALGLIB,Waffles和一些R包,例如randomForest。谁能告诉我这些库是否经过高度优化?它们是否基本上等同于《统计学习的要素》中详细介绍的随机森林,还是添加了很多额外的技巧? 我希望这个问题足够具体。为了说明我正在寻找的答案类型,如果有人问我线性代数软件包BLAS是否高度优化,我想说它是非常高度优化的,除了非常特殊的应用之外,几乎不值得尝试进行改进。

2
随机森林假设
我是随机森林的新手,所以我仍在努力解决一些基本概念。 在线性回归中,我们假设独立的观测值,恒定方差... 使用随机森林时,我们做出的基本假设/假设是什么? 就模型假设而言,随机森林和朴素贝叶斯之间的主要区别是什么?


6
随机森林-如何处理过度拟合
我有计算机科学背景,但是正在尝试通过解决Internet问题来自学数据科学。 在过去的几周里,我一直在研究这个问题(大约900行和10个功能)。我最初使用逻辑回归,但是现在我切换到了随机森林。当我在训练数据上运行随机森林模型时,auc的值非常高(> 99%)。但是,当我在测试数据上运行相同的模型时,结果并不是很好(准确度约为77%)。这使我相信我已经过度适合训练数据了。 关于防止随机森林过度适应的最佳实践是什么? 我正在使用r和rstudio作为开发环境。我正在使用该randomForest软件包,并且已接受所有参数的默认值

2
随机森林中可变重要性的度量
我一直在尝试使用随机森林进行回归,并且很难准确地确定出重要性的两个指标的含义以及如何解释它们。 该importance()函数为每个变量提供两个值:%IncMSE和IncNodePurity。这两个值是否有简单的解释? 对于IncNodePurity特别是,这仅仅是一个量的去除变量继RSS增加?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.