Questions tagged «random-forest»

随机森林是一种将许多决策树的输出组合在一起的机器学习方法。



1
时间序列预测的随机森林回归
我正在尝试利用RF回归对造纸厂的性能进行预测。 我每分钟都有输入数据(进纸木浆的速度和数量等)以及机器的性能(生产的纸张,机器消耗的功率)的数据,我希望做出10分钟的预测在性能变量上领先。 我有12个月的数据,因此将其分为11个月的培训时间和最后一个月的测试时间。 到目前为止,我已经创建了10个新功能,每个性能变量的滞后值在1-10分钟之内,并使用这些功能以及输入来进行预测。测试集的性能一直很好(系统是可以预测的),但是我担心我的方法中缺少某些东西。 例如,在本文中,作者陈述了他们测试随机森林模型的预测能力的方法: 通过迭代添加新一周的数据,基于更新后的数据训练新模型并预测下一周的爆发次数来进行模拟 这与利用时间序列中的“后来的”数据作为测试有何不同?我是否应该使用这种方法以及测试数据集来验证我的RF回归模型?此外,这种对森林随机回归的“自回归”方法是否对时间序列有效,如果我对未来10分钟的预测感兴趣,我是否甚至需要创建这么多滞后变量?

3
RBF SVM用例(对比逻辑回归和随机森林)
具有径向基函数内核的支持向量机是一种通用的监督分类器。 虽然我知道这些SVM的理论基础及其优点,但我不知道它们是首选方法的情况。那么,RBF SVM是否比其他ML技术优越呢?(无论是在得分方面,还是其他方面-诸如健壮性,入门容易性,可解释性等) 我在问,因为我的默认方法围绕逻辑回归(也许有些交互作用),随机森林和一些神经网络。我做ML的所有朋友(有些是Kaggle赢家)都不是SVM用户(但这可能是我所在社区的产物,或者是他们处理的问题)。

1
使用随机森林进行建模是否需要交叉验证?
据我所见,人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证(尤其是将RF与同一数据集上的其他算法进行比较时)。另一方面,原始消息来源指出,在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提(Trevor Hastie)在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观上,如果在一个数据集上训练并尝试改进基于RF的模型,这对我来说很有意义。 您对此有何看法?

1
随机森林vs Adaboost
在《随机森林》(Breiman,1999年)的第7节中,作者提出了以下猜想:“ Adaboost是随机森林”。 有没有人证明或反对这一点?为证明或反驳1999年以后的职位采取了哪些措施?



2
如何更改R randomForests中的分类阈值?
所有物种分布建模文献都认为,当使用输出概率的模型(例如,RandomForests)预测物种的存在/不存在时,选择阈值概率来将物种实际分类为存在或不存在很重要,应该并不总是依赖默认值0.5。我需要一些帮助!这是我的代码: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

2
插入符varImp用于randomForest模型
我在了解该varImp函数如何对带有caret包的randomForest模型起作用时遇到了麻烦。在下面的示例中,功能var3使用插入符号varImp函数的重要性为零,但基础的randomForest最终模型对功能var3的重要性为非零。为什么会这样呢? require(randomForest) require(caret) rf <- train(x, y, method = "rf", trControl = trainControl(method = "oob"), importance = TRUE, verbose = TRUE, tuneGrid = data.frame(mtry = num.predictors) ) fm <- rf$finalModel > varImp(f) rf variable importance Overall var1 100.00 var2 80.14 var3 0.00 > importance(fm) %IncMSE IncNodePurity var2 872.7935 40505276 var1 …
10 r  caret  random-forest 

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
小n大p问题中基于树的集成方法的极限?
基于树的集成方法(例如,Random Forest和随后的导数(例如,条件森林))都声称可用于所谓的“ small n,large p ”问题,以识别相对变量的重要性。确实,情况确实如此,但是我的问题是,这种能力可以走多远?可以说30个观察值和100个变量吗?这种方法的突破点是什么,是否存在任何体面的经验法则?我希望并接受使用模拟或真实数据集的,以实际证据(而非推测)为链接的答案。我对后者没有太多了解(在这里和这里),因此非常欢迎您提出想法/建议/(关于主题)参考建议!

1
randomForest和变量重要性错误?
我不明白的之间的差异rfobject$importance,并importance(rfobject)在MeanDecreaseAccuracy列。 例: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …

4
有没有一种方法可以使用交叉验证在R中进行变量/特征选择?
我有一个约70个要减少的变量的数据集。我想要做的是使用CV以下列方式查找最有用的变量。 1)随机选择说20个变量。 2)使用stepwise/ LASSO/ lars/ etc选择最重要的变量。 3)重复〜50x,查看最常选择(未消除)的变量。 这与a的randomForest做法类似,但是该rfVarSel软件包似乎仅适用于因子/分类,我需要预测一个连续的因变量。 我正在使用R,因此任何建议都可以在此处理想地实现。

6
比较来自两个不同随机森林模型的R平方
我正在R中使用randomForest包来开发随机森林模型,以试图解释“宽”数据集中的连续结果,其预测因子比样本多。 具体来说,我正在拟合一个RF模型,允许该过程从大约75个我认为重要的预测变量中进行选择。 我正在使用先前在此处发布的方法,测试该模型对保留测试集的实际结果的预测效果如何,即 ...或在R中: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) 但是现在我可以添加大约25个预测变量。当使用〜100个预测变量集时,R²较高。我要统计测试,换句话说,使用set〜100预测的时候,做了模型试验显著更好比使用〜75个预测模型拟合测试数据。即,测试射频模型在整个数据集上的拟合度所产生的R²明显高于测试射频模型在缩减后的数据集上进行拟合所产生的R²。 这对我来说很重要,因为这是试验数据,要获得额外的25个预测指标非常昂贵,而且我需要知道是否应该在较大的后续研究中为这些预测指标进行测量。 我正在尝试考虑某种重采样/置换方法,但是什么也没想到。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.