Questions tagged «random-forest»

随机森林是一种将许多决策树的输出组合在一起的机器学习方法。

2
为决策树分类功能编码的最佳做法?
在为线性回归编码分类特征时,有一条规则:假人的数量应比级别总数少一个(以避免共线性)。 决策树是否存在类似的规则(袋装,增强)?我之所以这样问是因为,Python的标准做法似乎是将n级别扩展到对我而言似乎不是最佳的n虚拟对象(sklearns OneHotEncoder或Pandas pd.get_dummies)。 作为编码决策树分类功能的最佳做法,您有何建议?

1
y轴在随机森林偏倚图中的意义
我正在使用RandomForestR包,并对如何在其偏相关图中解释Y轴的值感到困惑。帮助文档指出,该图是“变量对类概率的边际影响的图形描述”。但是,我仍然对y轴的确切含义感到困惑。 特别是,负值是什么意思? 对准确预测班级产生负面影响是什么意思? 这些图中最重要的特征是最大值,趋势形状等吗? 您可以将局部图与其他变量的局部图进行比较吗? 这些图如何与Maxent(一种分布建模软件)中创建的响应曲线进行比较?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
使用机器学习学习预测财务时间序列的第一步
我正在尝试掌握如何使用机器学习来预测未来的财务时间序列1或更多步骤。 我有一个包含描述性数据的财务时间序列,我想形成一个模型,然后使用该模型预测未来的n步。 到目前为止,我一直在做的是: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 880.54 872.16 …


2
随机森林:如果我知道变量很重要怎么办
我的理解是随机森林随机选择mtry变量来构建每个决策树。因此,如果mtry = ncol / 3,则每个变量平均将在1/3的树中使用。而2/3的树木将不会使用它们。 但是,如果我知道单个变量可能非常重要,那么手动增加在每棵树中选择此变量的可能性会很好吗?R中的randomForest包可行吗?

2
randomForest选择回归而不是分类
我在R中使用randomForest包并使用虹膜数据,生成的随机森林是一个分类,但是当我使用具有约700个要素(要素为28x28像素图像中的每个像素)的数据集时,标签列被命名为label,randomForest生成的是回归。我正在使用以下行: rf <- randomForest(label ~ ., data=train) 为什么使用回归而不是分类?数据通过读取read.csv()。
12 r  random-forest 

2
PCA和随机森林
对于最近的Kaggle竞赛,我(手动)为我的训练集定义了10个其他功能,然后将其用于训练随机森林分类器。我决定在具有新功能的数据集上运行PCA,以查看它们之间的比较。我发现〜98%的方差由第一个分量(第一个特征向量)承载。然后,我多次训练分类器,一次添加一个功能,然后使用交叉验证和RMS误差比较分类的质量。我发现,每增加一个附加功能,分类都会有所改善,并且最终结果(包含所有10个新功能)远远优于(带有)两个功能的首次运行。 鉴于PCA声称〜98%的方差在我的数据集的第一部分中,为什么分类的质量有了很大的提高? 这对其他分类器是否成立?RF跨多个内核扩展,因此训练速度比(例如)SVM要快得多。 如果将数据集转换到“ PCA”空间,然后在转换后的空间上运行分类器,该怎么办?我的结果将如何变化?


1
如何减少误报的数量?
我正在尝试解决名为“ 行人检测”的任务,并且在两个类别的积极因素(人,负面因素)的背景上训练二进制clasifer。 我有数据集: 正数= 3752 负数= 3800 我使用 带有参数的train \ test split 80 \ 20%和RandomForestClassifier形式scikit-learn: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 我得到分数:95.896757% 测试训练数据(完美运行): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 对测试数据进行测试: true positive: 742 false positive: 57 false negative: 5 true negative: 707 我的问题是如何减少误报(背景分类为人)的数量?另外,为什么我的误报错误多于误报错误? 我尝试使用class_weight参数,但有时性能会下降(如class_weight = {0:1,1:4}所示)。 …

1
使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理?
我使用插入符号包训练10x10CV的randomForest对象。 library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) 之后,我在testSet上测试randomForest(新数据) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 混乱矩阵向我展示了该模型还不错。 confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No Information Rate : 0.7548 P-Value …

2
如何将逻辑回归和随机森林的结果结合起来?
我是机器学习的新手。我在同一数据集上应用了逻辑回归和随机森林。因此,我得到了可变的重要性(逻辑回归的绝对系数和随机森林的可变重要性)。我正在考虑将两者结合起来以获得最终可变的重要性。谁能分享他/她的经验?我已经检查了装袋,提升,合奏建模,但是这些不是我所需要的。他们更多地是在跨重复项合并同一模型的信息。我正在寻找的是结合多个模型的结果。

2
随机森林的特征选择和带有尖号的参数调整
我有具有数千个功能的数据,并且我想进行递归功能选择(RFE)以删除无信息的功能。我使用插入符号和RFE 进行此操作。但是,我开始思考,如果我想获得最佳的回归拟合(例如,随机森林),什么时候应该执行参数调整(mtry针对RF)?也就是说,据我所知,插入符号使用固定的mtry在不同的特征子集上反复训练RF。我想mtry应该在特征选择完成后找到最佳mtry值,但是插入符号使用的值会影响特征的所选子集吗?使用插入符号低mtry的速度要快得多,当然。 希望有人可以向我解释。

1
随机森林(或其他分类器)的分层分类
因此,我得到了大约60 x 1000的矩阵。我将其视为具有1000个特征的60个对象。这60个对象分为3类(a,b,c)。每个类别20个对象,我们知道真正的分类。我想在这60个训练示例集上进行有监督的学习,并且我对分类器的准确性(和相关指标)以及对1000个特征的特征选择都感兴趣。 首先,我的命名方式如何? 现在真正的问题是: 如我所述,我可以在上面添加随机森林,或者其他任何数量的分类器。但是有一个微妙之处-我真的只关心区分c类与a类和b类。我可以合并类a和b,但是有一种很好的方法来使用先验知识,即所有非c对象都可能形成两个不同的集群吗?我更喜欢使用随机森林或其变体,因为事实证明它对类似于我的数据有效。但是我可以说服我尝试其他方法。

2
随机森林是否表现出预测偏差?
我认为这是一个直截了当的问题,尽管为什么或为什么不是背后的原因可能不是。我问的原因是,我最近编写了自己的RF实施,尽管它的性能很好,但性能却不如我预期(根据Kaggle照片质量预测比赛数据集,获胜得分以及一些有关使用了哪些技术的后续信息)。 在这种情况下,我要做的第一件事是模型的图形预测误差,因此对于每个给定的预测值,我都确定了偏离正确目标值的平均偏差(或偏差)。对于我的RF,我得到以下图: 我想知道这是否是RF的常见偏差模式(如果不是,则可能是数据集和/或我的实现所特有的)。我当然可以使用该图通过补偿偏差来改善预测,但我想知道RF模型本身是否存在更基本的误差或缺点,需要解决。谢谢。 ==附录== 我的初步调查是在此博客条目随机森林偏见-更新

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.