我在具有层次结构的高维分组数据(50个数字输入变量)上使用随机森林。在70个不同对象的30个位置上进行了6次复制,收集了数据,从而产生了12600个数据点,这些数据点不是独立的。
似乎随机森林正在过度拟合数据,因为oob误差远小于我们在训练期间将一个对象的数据遗漏掉然后用训练后的随机森林预测遗漏对象的结果时得到的误差。此外,我已经关联了残差。
我认为过度拟合是由于随机森林期望独立数据而引起的。是否可以告诉随机森林有关数据的层次结构?还是有另一种强大的集成或收缩方法可以处理具有强大交互结构的高维分组数据?
有什么提示我可以做得更好吗?
分层数据的本质是什么?它是否允许您将数据叶用作数据点?
—
casperOne 2011年
您是否考虑过引导层次结构的最高级别,而不是个人?
—
–generic_user