我对机器学习,CART技术等并不陌生,我希望我的天真不会太明显。
随机森林如何处理多级/分层数据结构(例如,当需要进行跨级交互时)?
也就是说,在几个层次级别上具有分析单位的数据集(例如,嵌套在学校中的学生,以及有关学生和学校的数据)。
仅作为示例,考虑一个多级数据集,其中第一级的个人(例如,具有投票行为,人口统计等数据)嵌套在第二级的国家中(具有国家级数据;例如,人口):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
可以说这voted
是响应/因变量,其他是预测值/因变量。在这些类型的情况下,页边距和一些更高级别的变量(变量(部分依赖)的边际效应的例如,population
),用于不同的各个级别的变量,等等,可能是非常有趣的。在类似的情况下glm
,当然更合适-但是,当存在许多变量,交互作用和/或缺少值,和/或非常大规模的数据集等时,glm
并不是那么可靠。
子问题:随机森林能否以某种方式显式处理这种类型的数据结构?如果不考虑使用,会带来什么样的偏见?如果“随机森林”不合适,是否还有其他集成类型方法?