是否有一个R随机森林实现方案可以很好地处理稀疏数据?我有成千上万的布尔输入变量,但是对于任何给定的示例,只有几百个布尔值才是TRUE。
我对R还是比较陌生,并且注意到有一个用于处理稀疏数据的“ Matrix”包,但是标准的“ randomForest”包似乎无法识别这种数据类型。如果重要的话,输入数据将在R之外生成并导入。
有什么建议吗?我也可以研究使用Weka,Mahout或其他软件包。
是否有一个R随机森林实现方案可以很好地处理稀疏数据?我有成千上万的布尔输入变量,但是对于任何给定的示例,只有几百个布尔值才是TRUE。
我对R还是比较陌生,并且注意到有一个用于处理稀疏数据的“ Matrix”包,但是标准的“ randomForest”包似乎无法识别这种数据类型。如果重要的话,输入数据将在R之外生成并导入。
有什么建议吗?我也可以研究使用Weka,Mahout或其他软件包。
Answers:
R包“ Ranger”应该这样做。
https://cran.r-project.org/web/packages/ranger/ranger.pdf
快速实现随机森林,特别适合于高维数据。
与randomForest相比,此软件包可能是我所见过的最快的RF实现。它以本机方式处理分类变量。
有一个名为Quick-R的博客,应该可以帮助您了解R的基础知识。
R与包一起使用。每个程序包可以做不同的事情。有一个叫做“ randomForests”的软件包,应该正是您所要的。
请注意,无论采用哪种方法,稀疏数据都会带来问题。据我所知,这是一个非常开放的问题,数据挖掘通常是一门艺术,而不是一门科学。总体上来说,随机森林表现很好,但它们并非总是最好的方法。您可能想尝试具有许多层的神经网络,这可能会有所帮助。