对于随机森林树,哪个更好的成本函数:基尼系数或熵?


Answers:


9

正如我在Tan等人的《数据挖掘概论》中发现的那样。al:

研究表明,杂质度量的选择对决策树归纳算法的性能影响很小。这是因为许多杂质措施彼此非常一致。确实,用于修剪树的策略对最终树的影响要大于选择杂质度量的影响。

因此,您可以选择使用基尼索引(例如CART)或熵(例如C4.5)。

我会使用熵,更具体地说是使用C4.5的增益比,因为您可以轻松地遵循Quinlan写得很好的书:《 C4.5机器学习程序》。


3
一点点评论-熵使用日志,这可能是计算时间问题。

8
那句话是关于纯决策树的,而不是关于随机森林的。通常,您不会在随机森林中修剪树,因为您不是在尝试构建最佳树。因此,谈论更重要的内容(修剪或杂质措施)似乎具有误导性。目标是找到与随机森林配合使用的最佳树。
Chan-Ho Suh 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.