树估计量总是有偏差的吗?


9

我正在做决策树作业,我必须回答的问题之一是:“为什么从树中建立的估算器有偏见,而装袋如何帮助减少它们的差异?”。

现在,我知道过度拟合的模型倾向于具有非常低的偏差,因为它们试图拟合所有数据点。而且,我用Python编写了一个脚本,该脚本将树拟合到某些数据集(具有一个功能。它只是一个正弦曲线,带有一些偏离点,如下图所示)。因此,我想知道“好吧,如果我再次过度拟合数据,是否可以将偏差设为零?”。而且,事实证明,即使深度为10000,仍然有一些点无法通过曲线。

在此处输入图片说明

我尝试搜索原因,但找不到真正的解释。我猜想可能有些树可以完美地贯穿所有要点,而我得到的只是“运气不好”。或不同的数据集可能给了我无偏见的结果(也许是完美的正弦曲线?)。甚至可以说,也许在一开始就进行了切割,所以进一步切割不可能完全分离所有要点。

因此,考虑到此数据集(由于其他数据集可能有所不同),我的问题是:是否可能使树过度拟合到偏差变为零的点,或者是否总是会有一些偏差,即使实际上小?如果总是至少存在一些偏见,为什么会发生?

PS我不知道它是否可能相关,但是我使用DecisionTreeRegressorfrom sklearn将模型拟合到数据中。


3
欢迎来到我们的网站!请注意,您无需在问题中添加“预先感谢”,表达感谢的最好方法是等到您得到一些答案后再接受(绿色对勾),以最能帮助您的一个!如果您还没有这样做,为什么不看一下我们的旅游,看看这个站点是如何工作的?
银鱼

3
考虑一个函数y = 0,并且您试图拟合y = f(x),其中x具有一些随机值。在这种公认的极端情况下,决策树估计量是否有偏差?
jbowman '16

Answers:


10

决策树模型并不总是比任何其他学习模型都更容易产生偏见。

X[0,1]

YX

YXI<.5(X)+N(0,1)

YXX

YXX+N(0,1)

如果我们在两种情况下都适合决策树,则模型在第一种情况下是无偏的,但在第二种情况下有偏的。这是因为一个分裂的二叉树可以在第一种情况下恢复真正的基础数据模型。第二,一棵树所能做的最好的事情就是通过以更精细的间隔进行搅拌来近似线性函数-有限深度的树只能如此接近。

如果我们在这两种情况下,适合的线性回归,该模型偏向于第一种情况,但是未偏置在第二位。

因此,要知道模型是否有偏差,您需要知道真正的基础数据机制是什么。在现实生活中,您永远都不知道这一点,因此您永远无法真正说出现实生活中的模型是否有偏见。有时,我们认为我们很长一段时间都是完全正确的,但是随着理解的深入,偏见就会出现(牛顿重力到爱因斯坦重力至少是一个伪经的例子)。

从某种意义上说,我们期望大多数现实世界的过程(有些例外)是如此不可知,以至于对事实的合理合理近似是我们所有的模型都是有偏差的。我有点怀疑这个问题是否要求对建模复杂的统计过程的基本徒劳性进行深入的哲学讨论,但是思考起来很有趣。


0

数据中的某些点仍未得到预测的事实可能是由于某种不可减少的错误所致。从理论上讲,机器学习中存在可减少且不可减少的错误。不可减少的错误的想法是,无论您的模型多么出色,它都不会是完美的。这是由于一些原因。第一,无论您的训练功能多么强大,总会有一些隐藏的功能会影响您的训练数据不包含的输出。另一个原因是,在几乎所有数据中,肯定会有一些异常值。您始终可以尝试使模型对离群值尽可能地强健,但是无论您多么努力,离群值都将始终存在。(这并不意味着您在创建模型时不应考虑离群值)。最后一个细节是你不

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.