Questions tagged «random-forest»

随机森林是一种将许多决策树的输出组合在一起的机器学习方法。

1
随机森林和预测
我正在尝试了解随机森林的工作原理。我对树木的构建方式有所了解,但无法理解“随机森林”如何对袋装样本进行预测。有人可以给我一个简单的解释吗?


5
随机森林和决策树算法
随机森林是遵循装袋概念的决策树的集合。当我们从一个决策树移动到下一个决策树时,从上一个决策树中学到的信息将如何前进到下一个决策树? 因为,按照我的理解,没有什么像训练过的模型那样可以为每个决策树创建然后在下一个决策树开始从错误分类的错误中学习之前加载的。 那么它是怎样工作的?



1
评估随机森林:OOB与CV
当我们例如使用AUC评估随机森林的质量时,是否更适合在“外出样品”或交叉验证的保留集内计算这些数量? 我听说在OOB Samples上计算得出的结果更为悲观,但我不知道为什么。

3
随机森林和增强算法是参数化还是非参数化?
通过阅读出色的统计模型:这两种文化(Breiman 2001),我们可以抓住传统统计模型(例如线性回归)和机器学习算法(例如Bagging,Random Forest,Boosted tree ...)之间的所有差异。 布雷曼批评数据模型(参数化),因为它们基于这样的假设:观测值是由统计学家规定的已知的正式模型生成的,该模型可能无法很好地模仿自然。另一方面,机器学习算法不采用任何形式化的模型,而是直接从数据中学习输入变量和输出变量之间的关联。 我意识到Bagging / RF和Boosting也是某种参数:例如,ntree,RF中的mtry,学习率,包率,随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值,因此我们还需要根据数据估算这些参数。 那有什么区别呢?RF和Boosted Trees参数模型吗?

3
多层次/层次结构数据上的随机森林
我对机器学习,CART技术等并不陌生,我希望我的天真不会太明显。 随机森林如何处理多级/分层数据结构(例如,当需要进行跨级交互时)? 也就是说,在几个层次级别上具有分析单位的数据集(例如,嵌套在学校中的学生,以及有关学生和学校的数据)。 仅作为示例,考虑一个多级数据集,其中第一级的个人(例如,具有投票行为,人口统计等数据)嵌套在第二级的国家中(具有国家级数据;例如,人口): ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 0 67 0 1 53.01 6 1 34 1 2 47.54 7 0 54 1 …


6
随机森林:如何处理测试集中的新因子水平?
我正在尝试使用R中的随机森林模型进行预测。 但是我得到了错误,因为某些因素在测试集中与训练集中具有不同的值。例如,一个因子在测试集中的Cat_2值34, 68, 76等不出现在训练集中。不幸的是,我无法控制测试集...我必须原样使用它。 我唯一的解决方法是使用将问题因子转换回数值as.numeric()。它的工作原理,但我不是很满意,因为这些值是没有意义的数字代码... 您是否认为还有另一种解决方案,可以从测试集中删除新值?但是,不删除1, 2, 14, 32训练和测试中所有其他因素值(比如说值等),并且包含可能对预测有用的信息。

3
是否有公式或规则来确定randomForest的正确sampSize?
我正在与randomForest一起玩,并且发现通常增加sampSize会导致更好的性能。是否有一条规则/公式/等建议最佳sampSize应该是什么,或者是反复试验的事情?我想这是另一种措辞方式。sampSize太小或太大(过度拟合)有什么风险? 这个问题是指randomForest软件包中随机森林的R实现。该函数randomForest具有一个参数sampSize,该参数在文档中描述为 要抽取的样本大小。对于分类,如果sampsize是长度为层数的向量,则将采样按层进行分层,并且sampsize的元素指示要从层中提取的数字。
13 r  random-forest 

1
在“随机森林”中,为什么在节点级别而不是树级别上选择特征的随机子集?
我的问题:为什么随机森林会考虑特征的随机子集,以便在每棵树的节点级别而不是树级别进行拆分? 背景:这是一个历史问题。田锦镐(Tin Kam Ho)于1998年发表了有关构建“决策森林”的论文,该文章随机选择了用于生长每棵树的特征子集。几年后,在2001年,Leo Breiman发表了他的开创性的《随机森林》论文,其中特征子集是随机的。在每个树内的每个节点上选择,而不是在每个树上选择。尽管Breiman引用了Ho,但他没有具体说明从树级到节点级随机特征选择的过程。 我想知道是什么推动了这一发展。似乎在树级别选择特征子集仍会完成树的所需解相关。 我的理论:我在其他地方都没有看到过这种说法,但是就获得特征重要性的估计而言,随机子空间方法似乎效率较低。为了获得重要程度的估计值,对于每棵树,将特征一一随机排列,并记录袋外观察结果的错误分类增加或错误增加。因这种随机排列而导致错误分类或错误增加的变量很高,是那些具有最高重要性的变量。 如果我们用随机子空间的方法,每棵树,我们只考虑的功能。可能要花几棵树才能考虑所有预测变量。另一方面,如果我们在每个节点上考虑特征的不同子集,则在更少的树之后我们将考虑每个特征更多次,从而使我们对特征重要性的估计更加可靠。mmmppppppmimim_ippp 到目前为止,我所看的是:到目前为止,我已经阅读了Breiman的论文和Ho的论文,并进行了广泛的在线搜索以比较方法,而没有找到确切的答案。请注意,之前曾问过类似的问题。通过将我的推测/工作纳入可能的解决方案,这个问题进一步扩大了。我会对比较这两种方法的任何答案,相关引文或模拟研究感兴趣。如果没有结果,我计划比较两种方法来运行自己的仿真。




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.