我认为这是一个直截了当的问题,尽管为什么或为什么不是背后的原因可能不是。我问的原因是,我最近编写了自己的RF实施,尽管它的性能很好,但性能却不如我预期(根据Kaggle照片质量预测比赛数据集,获胜得分以及一些有关使用了哪些技术的后续信息)。
在这种情况下,我要做的第一件事是模型的图形预测误差,因此对于每个给定的预测值,我都确定了偏离正确目标值的平均偏差(或偏差)。对于我的RF,我得到以下图:
我想知道这是否是RF的常见偏差模式(如果不是,则可能是数据集和/或我的实现所特有的)。我当然可以使用该图通过补偿偏差来改善预测,但我想知道RF模型本身是否存在更基本的误差或缺点,需要解决。谢谢。
==附录==
我的初步调查是在此博客条目随机森林偏见-更新