用随机森林预测计数数据


12

是否可以训练随机森林以正确预测计数数据?这将如何进行?我的值范围很广,因此分类没有任何意义。如果我要使用回归分析,我会只截断结果吗?我在这里很迷路。有任何想法吗?


1
你不能使用泊松回归吗?
RJ-

我想使用非参数的东西。真的不记得泊松回归的假设,但是我敢肯定,其中之一是观测值是独立的,在这里并不能完全实现。这对我影响很大吗?
JEquihua

2
您是否简单地尝试过进行RF回归(可能也在日志中)?它可能工作得很好。

1
没有。但这是我的第一个要点。对数或平方根转换。但是我想看看是否有人对此有任何经验。
JEquihua

我尝试仅对响应,log(response)和sqrt(response)进行回归,但没有任何好处。我认为问题更多在于我所做的独立变量可以解释响应。那好吧。
JEquihua 2013年

Answers:


8

有一个称为R的软件包mobForest,可以适合计数数据的真实随机森林。它基于软件包mod()中的(基于模型的递归分区)party。如果family参数指定为,它将执行泊松回归poisson()。该软件包不再位于CRAN存储库中,但可以从存档中获取以前可用的版本。

如果您不限于随机森林/装袋,还可以使用计数版本的增强版本。也就是说,gbm(广义增强回归模型)。它也可以适合泊松模型。


5

我看到一些可能性。

  • 您可以将响应分为几个任意类别,然后使用分类树
  • 如果计数通常非常低,即0、0、0、1、0、3、0、2,则可以将每个整数计数视为一个类,然后再次使用分类树(可能不是您的情况)。在这些情况下,与连续回归相反,要获得高方差解释类型指标将变得更加困难。
  • 如果计数通常低,并且变化很大,那么我将只使用回归树。例如,在获得良好的线性预测指标时,使用泊松回归而不是线性回归只是引人入胜。如果您在随机森林中没有看到良好的预测能力,那么我怀疑一个专门用于容纳计数数据的更高级的模型会为您带来很多帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.