统计和大数据 random-forest

2

在为线性回归编码分类特征时，有一条规则：假人的数量应比级别总数少一个（以避免共线性）。决策树是否存在类似的规则（袋装，增强）？我之所以这样问是因为，Python的标准做法似乎是将n级别扩展到对我而言似乎不是最佳的n虚拟对象（sklearns OneHotEncoder或Pandas pd.get_dummies）。作为编码决策树分类功能的最佳做法，您有何建议？

13 categorical-data random-forest cart boosting

1

y轴在随机森林偏倚图中的意义

我正在使用RandomForestR包，并对如何在其偏相关图中解释Y轴的值感到困惑。帮助文档指出，该图是“变量对类概率的边际影响的图形描述”。但是，我仍然对y轴的确切含义感到困惑。特别是，负值是什么意思？对准确预测班级产生负面影响是什么意思？这些图中最重要的特征是最大值，趋势形状等吗？您可以将局部图与其他变量的局部图进行比较吗？这些图如何与Maxent（一种分布建模软件）中创建的响应曲线进行比较？

13 r interpretation random-forest partial-plot

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

使用机器学习学习预测财务时间序列的第一步

我正在尝试掌握如何使用机器学习来预测未来的财务时间序列1或更多步骤。我有一个包含描述性数据的财务时间序列，我想形成一个模型，然后使用该模型预测未来的n步。到目前为止，我一直在做的是： getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 880.54 872.16 …

12 r time-series machine-learning random-forest finance

3

用随机森林预测计数数据

是否可以训练随机森林以正确预测计数数据？这将如何进行？我的值范围很广，因此分类没有任何意义。如果我要使用回归分析，我会只截断结果吗？我在这里很迷路。有任何想法吗？

12 r regression random-forest prediction count-data

2

随机森林：如果我知道变量很重要怎么办

我的理解是随机森林随机选择mtry变量来构建每个决策树。因此，如果mtry = ncol / 3，则每个变量平均将在1/3的树中使用。而2/3的树木将不会使用它们。但是，如果我知道单个变量可能非常重要，那么手动增加在每棵树中选择此变量的可能性会很好吗？R中的randomForest包可行吗？

12 r random-forest parameterization

2

randomForest选择回归而不是分类

我在R中使用randomForest包并使用虹膜数据，生成的随机森林是一个分类，但是当我使用具有约700个要素（要素为28x28像素图像中的每个像素）的数据集时，标签列被命名为label，randomForest生成的是回归。我正在使用以下行： rf <- randomForest(label ~ ., data=train) 为什么使用回归而不是分类？数据通过读取read.csv()。

12 r random-forest

2

PCA和随机森林

对于最近的Kaggle竞赛，我（手动）为我的训练集定义了10个其他功能，然后将其用于训练随机森林分类器。我决定在具有新功能的数据集上运行PCA，以查看它们之间的比较。我发现〜98％的方差由第一个分量（第一个特征向量）承载。然后，我多次训练分类器，一次添加一个功能，然后使用交叉验证和RMS误差比较分类的质量。我发现，每增加一个附加功能，分类都会有所改善，并且最终结果（包含所有10个新功能）远远优于（带有）两个功能的首次运行。鉴于PCA声称〜98％的方差在我的数据集的第一部分中，为什么分类的质量有了很大的提高？这对其他分类器是否成立？RF跨多个内核扩展，因此训练速度比（例如）SVM要快得多。如果将数据集转换到“ PCA”空间，然后在转换后的空间上运行分类器，该怎么办？我的结果将如何变化？

12 classification pca random-forest

1

对于随机森林树，哪个更好的成本函数：基尼系数或熵？

对于随机森林树，哪个更好的成本函数：基尼系数或熵？我正在尝试在Clojure中实施随机森林。

12 classification random-forest cart

1

如何减少误报的数量？

我正在尝试解决名为“ 行人检测”的任务，并且在两个类别的积极因素（人，负面因素）的背景上训练二进制clasifer。我有数据集：正数= 3752 负数= 3800 我使用带有参数的train \ test split 80 \ 20％和RandomForestClassifier形式scikit-learn： RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 我得到分数：95.896757％测试训练数据（完美运行）： true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 对测试数据进行测试： true positive: 742 false positive: 57 false negative: 5 true negative: 707 我的问题是如何减少误报（背景分类为人）的数量？另外，为什么我的误报错误多于误报错误？我尝试使用class_weight参数，但有时性能会下降（如class_weight = {0：1,1：4}所示）。 …

12 classification random-forest unbalanced-classes precision-recall computer-vision

1

使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理？

我使用插入符号包训练10x10CV的randomForest对象。 library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) 之后，我在testSet上测试randomForest（新数据） RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 混乱矩阵向我展示了该模型还不错。 confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No Information Rate : 0.7548 P-Value …

12 r random-forest prediction caret

2

如何将逻辑回归和随机森林的结果结合起来？

我是机器学习的新手。我在同一数据集上应用了逻辑回归和随机森林。因此，我得到了可变的重要性（逻辑回归的绝对系数和随机森林的可变重要性）。我正在考虑将两者结合起来以获得最终可变的重要性。谁能分享他/她的经验？我已经检查了装袋，提升，合奏建模，但是这些不是我所需要的。他们更多地是在跨重复项合并同一模型的信息。我正在寻找的是结合多个模型的结果。

12 machine-learning logistic random-forest

2

随机森林的特征选择和带有尖号的参数调整

我有具有数千个功能的数据，并且我想进行递归功能选择（RFE）以删除无信息的功能。我使用插入符号和RFE 进行此操作。但是，我开始思考，如果我想获得最佳的回归拟合（例如，随机森林），什么时候应该执行参数调整（mtry针对RF）？也就是说，据我所知，插入符号使用固定的mtry在不同的特征子集上反复训练RF。我想mtry应该在特征选择完成后找到最佳mtry值，但是插入符号使用的值会影响特征的所选子集吗？使用插入符号低mtry的速度要快得多，当然。希望有人可以向我解释。

12 regression feature-selection random-forest caret

1

随机森林（或其他分类器）的分层分类

因此，我得到了大约60 x 1000的矩阵。我将其视为具有1000个特征的60个对象。这60个对象分为3类（a，b，c）。每个类别20个对象，我们知道真正的分类。我想在这60个训练示例集上进行有监督的学习，并且我对分类器的准确性（和相关指标）以及对1000个特征的特征选择都感兴趣。首先，我的命名方式如何？现在真正的问题是：如我所述，我可以在上面添加随机森林，或者其他任何数量的分类器。但是有一个微妙之处-我真的只关心区分c类与a类和b类。我可以合并类a和b，但是有一种很好的方法来使用先验知识，即所有非c对象都可能形成两个不同的集群吗？我更喜欢使用随机森林或其变体，因为事实证明它对类似于我的数据有效。但是我可以说服我尝试其他方法。

12 machine-learning classification multilevel-analysis random-forest stratification

2

随机森林是否表现出预测偏差？

我认为这是一个直截了当的问题，尽管为什么或为什么不是背后的原因可能不是。我问的原因是，我最近编写了自己的RF实施，尽管它的性能很好，但性能却不如我预期（根据Kaggle照片质量预测比赛数据集，获胜得分以及一些有关使用了哪些技术的后续信息）。在这种情况下，我要做的第一件事是模型的图形预测误差，因此对于每个给定的预测值，我都确定了偏离正确目标值的平均偏差（或偏差）。对于我的RF，我得到以下图：我想知道这是否是RF的常见偏差模式（如果不是，则可能是数据集和/或我的实现所特有的）。我当然可以使用该图通过补偿偏差来改善预测，但我想知道RF模型本身是否存在更基本的误差或缺点，需要解决。谢谢。 ==附录== 我的初步调查是在此博客条目随机森林偏见-更新

12 algorithms random-forest cart

Questions tagged «random-forest»