如何将随机效果(或重复测量)包含到randomForest中


22

我什至不确定这个问题是否有意义,但是我想我看到了几篇论文的标题,他们提出了具有随机效果的随机森林。在R中这可能吗?


1
是的,这没有多大意义。随机效应是什么意思?
西蒙妮2014年

我在想类似于可以使用lmer函数执行的操作,在该函数中您可以将随机效果包括为(1 |效果)。
mguzmann 2014年


2
我不太确定您要查看地址的方法是哪种随机性。通过对树进行解相关,随机森林是对装袋的简单改进。之所以称为“随机”,是因为在任何情况下,当在树中考虑拆分时,都会从说p个预测变量的随机子集中选择拆分候选。通常,m〜sqrt(p)。每次发生分裂时,都会选择一个随机的预测变量子集,从而选择一个随机森林。
psteelk 2014年

Answers:


13

它们通常不一起使用,在组合它们之前应小心。

随机森林通常用作分类器。您使用随机森林而不是其他方法(例如,K-均值聚类)的原因是,您可能要分类的维数很多。拥有大量维的问题在于,如果您要测试维订单的所有组合,则将有很多选择(其增长速度快于因数维的数量)。

随机效应通常用于对同一事物进行重复测量的回归中。它们通常用于混合效应模型,其中术语“混合”是指固定效应和随机效应。固定效果被认为代表您将再次看到的参数(例如,药物或人的年龄)。随机效应被认为代表了您不会再次看到的参数(例如特定人员)周围的可变性实例。

当存在群集数据http://dx.doi.org/10.1080/00949655.2012.741599http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf时,有一些示例将它们一起使用。

我不知道任何可以进行此分析的R软件包。


2
另外,这项工作的作者很高兴与您分享其实现的R代码。只是给他们发电子邮件。是我做的
垃圾平衡

我联系了Larocque,后者联系了Hajjam,并在几天内给我发送了电子邮件。
垃圾平衡

2
但是,一般警告是,可用的R代码仅对连续数据实现随机森林。您需要对其进行扩展以处理分类数据。
垃圾平衡

10

是的,有可能。您应该签出“ RE-EM树:纵向和集群数据的数据挖掘方法 ”,以及相关的R包REEMtree

自从我看报纸已经有一段时间了。我记得作者还没有尝试形成这些树的合奏,但是没有什么暗示它不起作用。


1
REEMtree不是应用于随机森林的随机效果。它应用于递归分区,这只是进入随机森林模型的一部分。所以我认为这个答案不应该比比尔·丹尼的分数更高。不幸的是,我对此的投票已被锁定。
垃圾平衡

1
来吧,一旦你有了那棵树,建造森林有多难?不用客气。
Ben Ogorek

1
好吧,看看随机森林如何增加引导采样,调整要尝试的随机选择特征的数量,树结果的聚合等,我们需要对随机森林的预测产生随机影响,而不是对单个树木的预测产生随机影响在林中,增强REEMtree并不是解决阅读Bill引用的文章并要求其作者提供R代码的好方法。
垃圾平衡

8

混合效果随机森林(MERF)是一回事。正如上面的回答所言,Larocque博士在HEC蒙特利尔的团队进行了一些出色的研究。该文件在这里:http : //www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599

从本质上讲,将随机森林的非线性建模与线性随机效应相结合是一种理论上合理的方法。

我们刚刚在Python中发布了一个使用上述算法实现MERF的开源软件包

我们撰写了有关该软件包以及如何将其用于群集数据集的详细博客文章


1
在R中实现此想法或添加部分依赖图功能的任何想法
OliverFishCode
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.