集成学习:为什么模型堆叠有效?


11

最近,我对模型堆叠作为集成学习的一种形式感兴趣。特别是,我对回归问题进行了一些玩具数据集实验。我基本上已经实现了单个“ 0级”回归器,将每个回归器的输出预测存储为新功能,以供“元回归器”作为其输入,并将此元回归器适应这些新功能(来自该层的预测0个回归指标)。当针对验证集测试元回归器时,我对单个回归器的适度改进感到非常惊讶。

所以,这是我的问题:为什么模型堆叠有效?凭直觉,我希望进行堆叠的模型表现不佳,因为与每个0级模型相比,它的要素表示似乎很差。也就是说,如果我在具有20个特征的数据集上训练3个0级回归变量,并使用这些0级回归变量的预测作为我的元回归变量的输入,这意味着我的元回归变量只有3个特征可供学习。似乎0级回归器用于训练的20种原始功能中编码的信息比元回归器用于训练的3种输出功能要多。

Answers:


5

认为合奏基本上是对中心极限定理的利用。

中心极限定理松散地说,随着样本量的增加,样本均值将成为总体均值实际位置的越来越准确的估计(假设这就是您要查看的统计信息),并且方差会变紧。

如果您有一个模型,并且为您的因变量生成了一个预测,则该预测可能会在某种程度上较高或较低。但是,如果您有3个,5个或10个产生不同预测的不同模型,对于任何给定的观察结果,某些模型的高预测将倾向于抵消其他模型的低误差,并且净效应将是平均值的收敛(或其他组合)对“真相”的预测。并非在每个观察结果上,但总的来说,这就是趋势。因此,通常情况下,合奏将胜过最佳的单个模型。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.