分组数据上的随机森林

11

我在具有层次结构的高维分组数据（50个数字输入变量）上使用随机森林。在70个不同对象的30个位置上进行了6次复制，收集了数据，从而产生了12600个数据点，这些数据点不是独立的。

似乎随机森林正在过度拟合数据，因为oob误差远小于我们在训练期间将一个对象的数据遗漏掉然后用训练后的随机森林预测遗漏对象的结果时得到的误差。此外，我已经关联了残差。

我认为过度拟合是由于随机森林期望独立数据而引起的。是否可以告诉随机森林有关数据的层次结构？还是有另一种强大的集成或收缩方法可以处理具有强大交互结构的高维分组数据？

有什么提示我可以做得更好吗？

regression random-forest

— 比阿特
source

分层数据的本质是什么？它是否允许您将数据叶用作数据点？

— casperOne 2011年

1

您是否考虑过引导层次结构的最高级别，而不是个人？

— –generic_user

1

参加聚会也很晚，但是我认为这可能与几年前的事情有关。该工作已在此处发布：

并涉及将变量相关性处理成决策树集合。您应该看一下参考书目，该书目指向解决此类问题的许多建议（在“遗传”领域中很常见）。

源代码在这里可用（但不再真正维护）。

— 0asa
source

-1

随机森林的过度拟合可能是由多种原因引起的，并且高度依赖于RF参数。从您的帖子中还不清楚如何调整RF。

这里有一些技巧可能会有所帮助：

— 贝拉·法迪达（Bella Fadida）
source

2

开派对的时间很晚，但是由于数据集的层次性，此答案无法解决任何问题。

— cbeleites对SX不满意，2014年