随机森林分类器的最佳参数应该是什么?


14

目前,我在MATLAB上使用RF工具箱进行二进制分类

数据集:50000个样本和250多个功能

那么,要分裂成几棵树并在每个分割处随机选择的特征数是多少?其他参数会极大地影响结果吗?

Answers:


8

选择大量的树木,比如说100棵。从我在互联网上阅读的内容中,选择随机选择的功能。但是,在原始论文中,Breiman使用了最接近的整数来记录M250logMlog2

我会说交叉验证通常是找到最佳参数的关键,但是我对随机森林并不了解。


1+log2M

谢谢,我已经更新了链接。现在,直接到达伯克利。
炒锅

12

数量越大越好。您几乎无法使用此参数来超调,但是上限当然取决于您要花费在RF上的计算时间。
好的主意是先做一个长森林,然后再看(我希望它可以在MATLAB实现中使用)OOB精度收敛时。

尝试属性数量默认为属性总数的平方根,但是通常林对此参数的值并不十分敏感-实际上很少对其进行优化,尤其是因为RF的随机方面可能会引入较大的变化。


7

树木数目越大越好:同意。

尝试属性的数量将取决于。如果您已经对功能之间的信息传播方式有所了解,那么您是否已具备先验知识。如果信息由许多功能共享,则该参数的值越小,效果越好。另一方面,如果只有少数功能承载信息,则应使用较大的值。换句话说,具有许多相关变量:较小的值更好,而具有许多不相关的变量:较大的值更好。


1
尽管您对已尝试属性的数量的主张是合理的,但您对此有何引述?
James Owers 2015年

我建议阅读这篇论文:github.com/glouppe/phd-thesis 以及 这篇论文: orbi.ulg.ac.be/handle/2268/25737
0asa
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.