最近,我对模型堆叠作为集成学习的一种形式感兴趣。特别是,我对回归问题进行了一些玩具数据集实验。我基本上已经实现了单个“ 0级”回归器,将每个回归器的输出预测存储为新功能,以供“元回归器”作为其输入,并将此元回归器适应这些新功能(来自该层的预测0个回归指标)。当针对验证集测试元回归器时,我对单个回归器的适度改进感到非常惊讶。
所以,这是我的问题:为什么模型堆叠有效?凭直觉,我希望进行堆叠的模型表现不佳,因为与每个0级模型相比,它的要素表示似乎很差。也就是说,如果我在具有20个特征的数据集上训练3个0级回归变量,并使用这些0级回归变量的预测作为我的元回归变量的输入,这意味着我的元回归变量只有3个特征可供学习。似乎0级回归器用于训练的20种原始功能中编码的信息比元回归器用于训练的3种输出功能要多。