分组数据上的随机森林


11

我在具有层次结构的高维分组数据(50个数字输入变量)上使用随机森林。在70个不同对象的30个位置上进行了6次复制,收集了数据,从而产生了12600个数据点,这些数据点不是独立的。

似乎随机森林正在过度拟合数据,因为oob误差远小于我们在训练期间将一个对象的数据遗漏掉然后用训练后的随机森林预测遗漏对象的结果时得到的误差。此外,我已经关联了残差。

我认为过度拟合是由于随机森林期望独立数据而引起的。是否可以告诉随机森林有关数据的层次结构?还是有另一种强大的集成或收缩方法可以处理具有强大交互结构的高维分组数据?

有什么提示我可以做得更好吗?


分层数据的本质是什么?它是否允许您将数据叶用作数据点?
casperOne 2011年

1
您是否考虑过引导层次结构的最高级别,而不是个人?
–generic_user

Answers:



-1

随机森林的过度拟合可能是由多种原因引起的,并且高度依赖于RF参数。从您的帖子中还不清楚如何调整RF。

这里有一些技巧可能会有所帮助:

  1. 增加树木数量

  2. 调整树木的最大深度。此参数高度取决于当前的问题。使用较小的树木可以解决过度拟合的问题。


2
开派对的时间很晚,但是由于数据集的层次性,此答案无法解决任何问题。
cbeleites对SX不满意,2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.