随机森林是否表现出预测偏差?


12

我认为这是一个直截了当的问题,尽管为什么或为什么不是背后的原因可能不是。我问的原因是,我最近编写了自己的RF实施,尽管它的性能很好,但性能却不如我预期(根据Kaggle照片质量预测比赛数据集,获胜得分以及一些有关使用了哪些技术的后续信息)。

在这种情况下,我要做的第一件事是模型的图形预测误差,因此对于每个给定的预测值,我都确定了偏离正确目标值的平均偏差(或偏差)。对于我的RF,我得到以下图:

预测值与正确目标值的偏差

我想知道这是否是RF的常见偏差模式(如果不是,则可能是数据集和/或我的实现所特有的)。我当然可以使用该图通过补偿偏差来改善预测,但我想知道RF模型本身是否存在更基本的误差或缺点,需要解决。谢谢。

==附录==

我的初步调查是在此博客条目随机森林偏见-更新


2
它可能是您数据的特征;您是否尝试过在同一数据集上运行其他RF实现,以查看它是否能够重现这种效果?

Answers:


4

(我很,从专家,这些都是从初中统计学家只是沉思谁已经处理了不同的,但类似的松散,问题。我的回答可能是上下文的。)

给定一个可以预测的新样本,并且可以使用更大范围的训练的甲骨文,那么“最佳”和最诚实的预测就是说“我以60%的概率预测它属于Red类,而不是蓝班”。

我将举一个更具体的例子。想象一下,在我们非常庞大的训练集中,有大量样本与我们的新样本非常相似。其中60%为蓝色,40%为红色。似乎没有什么可以区分蓝调和红色。在这种情况下,很显然,理智的人只能做出60%/ 40%的预测。

当然,我们没有这样的神谕,相反,我们有很多树。简单的决策树无法做出这些60%/ 40%的预测,因此,每棵树都将做出离散的预测(红色或蓝色,介于两者之间)。由于这个新样本恰好落在决策面的红色一侧,您会发现几乎所有的树都预测红色,而不是蓝色。每棵树都假装比它更确定,并开始朝有偏向的预测迈进。

问题是我们倾向于错误地解释一棵树上的决定。当一棵树将节点放入Red类时,我们不应将其解释为树的100%/ 0%预测。(我并不是说我们“知道”这可能是一个糟糕的预测。我是在说更强的东西,即我们应该谨慎地将其解释为树的预测)。我无法简明地介绍如何解决此问题。但是可以从统计领域借用关于如何在树中构造更多“模糊”拆分的想法,以鼓励一棵树对其不确定性更加诚实。然后,应该有可能对树木的森林进行有意义的平均化。

希望这会有帮助。如果没有,我希望从任何回应中学习。


本着极端RF的精神(但可能不是那么极端?),模糊分裂得到了。我将尝试这样做,因为您的解释对我来说很有意义。谢谢。
redcalx 2012年

[Random Forest-关于偏差问题的思考](the-locster.livejournal.com/134241.html)“然后(我认为)的关键是使用[分割阈值]的非均匀随机化,使得所有合并后的分割点将重新创建y = f(x),并且随着RF中DT的数量趋于无穷大,接近y = f(x)的完美表示。”
redcalx 2012年

回归树不会处理60/40%的预测吗?置信度是叶子分区(针对训练集)中的类比率。也许这可以/已扩大到处理统计力量太
阿尔特

3

是。大多数树木的尾巴都有偏斜。看到:

预测连续变量时应如何实施决策树拆分?

“树的一个潜在问题是,树的尾部拟合度很差。想想一个捕获训练集范围较小的终端节点。它将使用这些训练集点的平均值进行预测,而该点总是会被低估结果(因为这是平均值)。”


我认为该评论不适用于随机森林
Zach 2012年

我相信,当响应变量是连续的时,随机森林的参考实现将在节点中停止〜5个观察。如果拆分变量也是连续的,那仍然会引入少量的偏差。类似于为什么LOESS常常看起来比支撑边缘的居中移动平均更好...
Shea Parkes 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.