我了解到,随机森林树和极随机树在意义上是不同的,即随机森林中的树的分割是确定性的,而对于极随机树则它们是随机的(更准确地说,下一个分割是最佳分割在当前树的所选变量中的随机均匀拆分中)。但是我不完全理解这种不同拆分在各种情况下的影响。
- 他们如何比较偏差/方差?
- 如果存在不相关的变量,它们如何比较?
- 在存在相关变量的情况下如何比较?
uniform split
?
我了解到,随机森林树和极随机树在意义上是不同的,即随机森林中的树的分割是确定性的,而对于极随机树则它们是随机的(更准确地说,下一个分割是最佳分割在当前树的所选变量中的随机均匀拆分中)。但是我不完全理解这种不同拆分在各种情况下的影响。
uniform split
?
Answers:
额外(随机化)树(ET)文章包含偏差方差分析。在第16页上,您可以看到多种方法的比较,包括六项测试(树分类和三项回归)的RF。
两种方法大致相同,但当有大量的噪波特征(在高维数据集中)时,ET会更差一些。
就是说,只要(也许是手动的)特征选择接近最佳,性能就差不多,但是,ET的计算速度会更快。
从文章本身来看:
对算法的分析以及对多个测试问题变体的K最优值的确定表明,该值原则上取决于问题的具体情况,尤其是无关属性的比例。偏差/方差分析表明,额外树通过减小方差而同时 增加偏差来工作。当随机化程度增加到最佳水平以上时,方差会略有减少,而偏差通常会明显增加。
一如既往,没有银弹。
Pierre Geurts,Damien Ernst,Louis Wehenke。“非常随机的树”
答案是,这取决于。我建议您在问题上同时尝试随机森林和多余的树木。尝试大型森林(1000-3000棵树/估计量,sklearn中的n_estimators个)并调整每个分割处考虑的特征数量(sklearn中的max_features)以及每个分割的最小样本数(sklearn中的min_samples_split)和最大树深度( sklearn中的max_depth)。也就是说,您应该记住,过度调整可能是过度拟合的一种形式。
这是我亲自处理的两个问题,在这些情况下,多余的树在非常嘈杂的数据中被证明是有用的: