统计和大数据 random-forest

1

随机森林和预测

我正在尝试了解随机森林的工作原理。我对树木的构建方式有所了解，但无法理解“随机森林”如何对袋装样本进行预测。有人可以给我一个简单的解释吗？

14 random-forest prediction

3

在随机森林分类之前对高维文本数据进行PCA？

在进行随机森林分类之前进行PCA是否有意义？我正在处理高维文本数据，并且我想进行特征缩减以帮助避免维数的诅咒，但是Random Forests是否已经在某种程度上降低了维度？

14 classification pca random-forest dimensionality-reduction high-dimensional

5

随机森林和决策树算法

随机森林是遵循装袋概念的决策树的集合。当我们从一个决策树移动到下一个决策树时，从上一个决策树中学到的信息将如何前进到下一个决策树？因为，按照我的理解，没有什么像训练过的模型那样可以为每个决策树创建然后在下一个决策树开始从错误分类的错误中学习之前加载的。那么它是怎样工作的？

14 machine-learning random-forest cart bagging

3

随机森林分类器的最佳参数应该是什么？

目前，我在MATLAB上使用RF工具箱进行二进制分类数据集：50000个样本和250多个功能那么，要分裂成几棵树并在每个分割处随机选择的特征数是多少？其他参数会极大地影响结果吗？

14 machine-learning classification random-forest

4

使用非线性模型时，应该关注多重共线性吗？

假设我们有一个主要具有分类特征的二进制分类问题。我们使用一些非线性模型（例如XGBoost或Random Forests）来学习它。还应该关注多重共线性吗？为什么？如果上述答案是正确的，那么考虑到正在使用这些类型的非线性模型，应该如何应对？

13 classification random-forest multicollinearity xgboost

1

评估随机森林：OOB与CV

当我们例如使用AUC评估随机森林的质量时，是否更适合在“外出样品”或交叉验证的保留集内计算这些数量？我听说在OOB Samples上计算得出的结果更为悲观，但我不知道为什么。

13 cross-validation random-forest auc

3

随机森林和增强算法是参数化还是非参数化？

通过阅读出色的统计模型：这两种文化（Breiman 2001），我们可以抓住传统统计模型（例如线性回归）和机器学习算法（例如Bagging，Random Forest，Boosted tree ...）之间的所有差异。布雷曼批评数据模型（参数化），因为它们基于这样的假设：观测值是由统计学家规定的已知的正式模型生成的，该模型可能无法很好地模仿自然。另一方面，机器学习算法不采用任何形式化的模型，而是直接从数据中学习输入变量和输出变量之间的关联。我意识到Bagging / RF和Boosting也是某种参数：例如，ntree，RF中的mtry，学习率，包率，随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值，因此我们还需要根据数据估算这些参数。那有什么区别呢？RF和Boosted Trees参数模型吗？

13 machine-learning data-mining random-forest boosting bagging

3

多层次/层次结构数据上的随机森林

我对机器学习，CART技术等并不陌生，我希望我的天真不会太明显。随机森林如何处理多级/分层数据结构（例如，当需要进行跨级交互时）？也就是说，在几个层次级别上具有分析单位的数据集（例如，嵌套在学校中的学生，以及有关学生和学校的数据）。仅作为示例，考虑一个多级数据集，其中第一级的个人（例如，具有投票行为，人口统计等数据）嵌套在第二级的国家中（具有国家级数据；例如，人口）： ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 0 67 0 1 53.01 6 1 34 1 2 47.54 7 0 54 1 …

13 machine-learning random-forest multilevel-analysis cart

2

使用随机森林模型时何时记录/扩展变量？

我正在使用随机森林进行回归，以基于多个属性预测价格。使用Scikit-learn用Python编写代码。在如何使用变量来拟合回归模型之前，您如何决定是否应使用exp/ 变换变量log？使用诸如随机森林之类的集成方法时是否有必要？

13 regression machine-learning predictive-models python random-forest

6

随机森林：如何处理测试集中的新因子水平？

我正在尝试使用R中的随机森林模型进行预测。但是我得到了错误，因为某些因素在测试集中与训练集中具有不同的值。例如，一个因子在测试集中的Cat_2值34, 68, 76等不出现在训练集中。不幸的是，我无法控制测试集...我必须原样使用它。我唯一的解决方法是使用将问题因子转换回数值as.numeric()。它的工作原理，但我不是很满意，因为这些值是没有意义的数字代码... 您是否认为还有另一种解决方案，可以从测试集中删除新值？但是，不删除1, 2, 14, 32训练和测试中所有其他因素值（比如说值等），并且包含可能对预测有用的信息。

13 r categorical-data random-forest

3

是否有公式或规则来确定randomForest的正确sampSize？

我正在与randomForest一起玩，并且发现通常增加sampSize会导致更好的性能。是否有一条规则/公式/等建议最佳sampSize应该是什么，或者是反复试验的事情？我想这是另一种措辞方式。sampSize太小或太大（过度拟合）有什么风险？这个问题是指randomForest软件包中随机森林的R实现。该函数randomForest具有一个参数sampSize，该参数在文档中描述为要抽取的样本大小。对于分类，如果sampsize是长度为层数的向量，则将采样按层进行分层，并且sampsize的元素指示要从层中提取的数字。

13 r random-forest

1

在“随机森林”中，为什么在节点级别而不是树级别上选择特征的随机子集？

我的问题：为什么随机森林会考虑特征的随机子集，以便在每棵树的节点级别而不是树级别进行拆分？背景：这是一个历史问题。田锦镐（Tin Kam Ho）于1998年发表了有关构建“决策森林”的论文，该文章随机选择了用于生长每棵树的特征子集。几年后，在2001年，Leo Breiman发表了他的开创性的《随机森林》论文，其中特征子集是随机的。在每个树内的每个节点上选择，而不是在每个树上选择。尽管Breiman引用了Ho，但他没有具体说明从树级到节点级随机特征选择的过程。我想知道是什么推动了这一发展。似乎在树级别选择特征子集仍会完成树的所需解相关。我的理论：我在其他地方都没有看到过这种说法，但是就获得特征重要性的估计而言，随机子空间方法似乎效率较低。为了获得重要程度的估计值，对于每棵树，将特征一一随机排列，并记录袋外观察结果的错误分类增加或错误增加。因这种随机排列而导致错误分类或错误增加的变量很高，是那些具有最高重要性的变量。如果我们用随机子空间的方法，每棵树，我们只考虑的功能。可能要花几棵树才能考虑所有预测变量。另一方面，如果我们在每个节点上考虑特征的不同子集，则在更少的树之后我们将考虑每个特征更多次，从而使我们对特征重要性的估计更加可靠。mmmppppppmimim_ippp 到目前为止，我所看的是：到目前为止，我已经阅读了Breiman的论文和Ho的论文，并进行了广泛的在线搜索以比较方法，而没有找到确切的答案。请注意，之前曾问过类似的问题。通过将我的推测/工作纳入可能的解决方案，这个问题进一步扩大了。我会对比较这两种方法的任何答案，相关引文或模拟研究感兴趣。如果没有结果，我计划比较两种方法来运行自己的仿真。

13 machine-learning feature-selection random-forest importance history

1

Kinect如何使用随机森林？

我在该站点上阅读到，显然Kinect 以某种方式使用随机森林算法进行机器学习。谁能解释一下随机森林的用途以及他们的方法如何工作？

13 machine-learning random-forest application

2

随机森林适合于非常小的数据集吗？

我有包含24行每月数据的数据集。这些功能包括GDP，机场到达，月份和其他一些信息。因变量是热门旅游目的地的游客人数。随机森林会适合这样的问题吗？数据是非公开的，所以我无法发布样本。

13 random-forest small-sample

2

在随机森林中接近意味着什么？

我偶然发现了随机森林中的“接近度”一词。但是我不明白它在随机森林中的作用。对于分类目的有何帮助？

13 machine-learning random-forest

Questions tagged «random-forest»