论弱学习者的“力量”


22

关于集成学习中的弱学习者,我有几个密切相关的问题(例如,促进学习)。

  1. 这听起来可能很愚蠢,但是使用弱者而不是强者有什么好处?(例如,为什么不使用“强”的学习方法来增强?)
  2. 弱学习者是否有某种“最佳”力量(例如,同时保持所有其他整体参数不变)?当谈到他们的力量时,是否有一个“最佳位置”?
  3. 相对于合奏法,我们如何衡量一个弱学习者的力量。我们如何定量衡量使用集成的边际收益?
  4. 我们如何比较几种弱学习算法,以确定给定的集成方法使用哪种算法?
  5. 如果给定的集成方法对弱分类器的帮助大于对强分类器的帮助,我们如何告诉给定的分类器已经“太强大”而无法在增强分类器时产生任何明显的收益?

Answers:


16

这可能更符合装箱精神,但是:

  • 如果您确实有一个强大的学习者,则无需通过任何合奏的东西对其进行改进。
  • 我会说...无关紧要。在简单地进行混合和装袋时,增强分类器可能会导致收敛失误(即幸运的预测可能会使下一次迭代预测纯噪声,从而降低性能),但是通常可以在进行迭代时对此进行修复。
  • 同样,这不是真正的问题。这些方法的核心是

    1. 迫使部分分类器在问题中更深入地研究。
    2. 加入他们的预测以衰减噪声并放大信号。

    1)在提升时需要注意(即良好的提升方案,表现良好的部分学习者,但这主要取决于整个提升的实验),2)在装袋和混合中(主要是如何确保学习者之间缺乏相关性)并且不要对合奏进行过分噪音)。只要可以,部分分类器的准确性就是一个三阶问题。


谢谢@mbq。以上说明是否意味着弱分类器通常比强分类器受益于集成方法?(即增强功能对弱分类器的帮助远大于强分类器)。从这个意义上说,我们如何知道给定的分类器已经足够强大以适合某种整体方法?(例如,您如何粗略地告诉您,有一个强大的学习者不会从促进
中学

1
相反,只有弱分类器才有改进的空间。总的来说,力量是一种抽象的品质,我们无法真正衡量它。唯一可以确定的测试只是进行实验,并检查合奏是否显着提高了性能。如果是这样,分类器就很弱。如果没有,那么,我们仍然一无所知。

11

首先,“弱”和“强”的概念仅被弱定义。从我的角度来看,必须相对于最佳贝叶斯分类器(它们是任何训练算法的目标)进行定义。考虑到这一点,我对以下三点的答复如下。

  1. 我认为是计算的。我知道的大多数弱学习者的计算速度都很快(否则不值得考虑)。集成学习的一个主要要点就是,我们可以将简单,快速但不是很好的学习者结合起来,并提高错误率。如果我们使用更强大(并且在计算上要求更高)的学习者,则改进的空间变小了,但计算成本却变大了,这使得使用集成方法变得不那么有趣了。而且,一个强大的学习者可能更容易解释。但是,弱点和强点取决于问题和我们尝试实现的最佳贝叶斯速率。因此,如果一个通常被认为是强壮的学习者在提升学习能力时仍然留有改进的余地,并且提升在计算上是可行的,那么就可以进行提升...
  2. 这将取决于您用来衡量“最佳”的标准。关于错误率,我会说“不”(如果其他人有不同的经验,我欢迎提出任何更正)。也许在速度方面,但是我想这与问题高度相关。抱歉,我不知道有任何文献发表。
  3. 交叉验证,交叉验证,交叉验证。像其他任何以预测为目标的训练方法比较一样,我们都需要无偏估计的泛化误差以进行比较,这可以通过搁置测试数据集或通过交叉验证对其进行近似来实现。

感谢@NRH,这非常有帮助。我将第三个问题分为两个单独的问题,因为我认为它们可能需要不同的答案。
Amelio Vazquez-Reina

那么有没有办法找出分类器与最佳贝叶斯分类器的距离呢?如果它已经足够接近了,那么我们将无法对其进行改进。
highBandWidth

@highBandWidth,无法知道贝叶斯速率是多少。它是一个理论量,它依赖于未知分布。理论上的假设可能会提供上下边界(渐近线),通过使用交叉验证或独立的测试数据,可以准确地估算出上限。但是除非您知道分布,否则无法确定这种上限是否过紧或是否有改进的余地。
NRH 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.