6
比较来自两个不同随机森林模型的R平方
我正在R中使用randomForest包来开发随机森林模型,以试图解释“宽”数据集中的连续结果,其预测因子比样本多。 具体来说,我正在拟合一个RF模型,允许该过程从大约75个我认为重要的预测变量中进行选择。 我正在使用先前在此处发布的方法,测试该模型对保留测试集的实际结果的预测效果如何,即 ...或在R中: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) 但是现在我可以添加大约25个预测变量。当使用〜100个预测变量集时,R²较高。我要统计测试,换句话说,使用set〜100预测的时候,做了模型试验显著更好比使用〜75个预测模型拟合测试数据。即,测试射频模型在整个数据集上的拟合度所产生的R²明显高于测试射频模型在缩减后的数据集上进行拟合所产生的R²。 这对我来说很重要,因为这是试验数据,要获得额外的25个预测指标非常昂贵,而且我需要知道是否应该在较大的后续研究中为这些预测指标进行测量。 我正在尝试考虑某种重采样/置换方法,但是什么也没想到。