我对支持向量机的泛化能力的理论结果感兴趣,例如,这些机器的分类错误概率和Vapnik-Chervonenkis(VC)维度的界限。但是,通读文献后,我的印象是,某些相似的重复结果往往因作者而略有不同,尤其是在一定的持有范围内需要的技术条件方面。
在下面我会记得的SVM问题和主要成果概括状态3,我已经在这种或那种形式反复发现的结构我给整个博览会3个主引用。
问题设置:
假设我们有一个独立且均布的(iid)对的数据样本,其中所有,和。我们构造了一个支持向量机(SVM),该向量使,和定义的分离超平面之间的最小余量最大化。,以及之间最接近的点以便将和定义的两个类分开。我们通过引入松弛变量让SVM通过软裕度来承认一些错误 - 但为了表示简单起见,我们忽略了内核的可能性。解参数和是通过求解以下凸二次优化程序获得的:b ∗
我们对这台机器的综合能力很感兴趣。
Vapnik-Chervonenkis尺寸:
第一个结果是由于(Vapnik,2000),他将一个分离的超平面的VC维定界为定理5.1。令, 我们有:
可以再次在(Burges,1998)定理6中找到该结果。但是,看来Burges定理比Vapnik的相同结果更具限制性,因为他需要定义一个特殊的分类器类别,称为容差分类器。到所述SVM属于,陈述定理。
错误概率的界限:
在(Vapnik,2000)中,第139页的定理5.2对SVM泛化能力给出了以下限制:
其中,是SVM的支持向量的数量。似乎分别在(Burges,1998)等式(86)和(93)中再次发现了这一结果。但是同样,伯吉斯似乎与Vapnik不同,因为他在不同的定理,不同的条件下,将上述最小函数中的组件分开。
在(Vapnik,2000),p.133中出现的另一个结果如下。再次假设,对于所有,并令和,我们定义等于:
我们还将定义为SVM错误分类的训练示例数。然后用概率我们可以断言,该试验例将不会被正确地分离的概率 -margin超平面即SVM与余量已结合的:
但是,在(Hastie,Tibshirani和Friedman,2009年)第438页中,发现了非常相似的结果:
结论:
在我看来,这些结果之间存在一定程度的冲突。另一方面,尽管其中的两个参考文献在SVM文献中是规范的,但它们开始显得有些陈旧(1998年和2000年),特别是如果我们认为对SVM算法的研究始于90年代中期。
我的问题是:
- 这些结果今天仍然有效,还是被证明是错误的?
- 从那以后,有没有得出相对宽松条件下的更严格界限?如果是这样,我可以在哪里找到他们?
- 最后,是否有任何参考资料可以综合有关SVM的主要概括结果?
参考文献:
Burges,JC(1998)。“用于模式识别的支持向量机教程”,数据挖掘和知识发现,2:121-167
Hastie,T.,Tibshirani,R.和Friedman,J.(2009)。统计学习的要素,第二版,Springer
Vapnik,VN(1998)。统计学习理论,第一版,约翰·威利父子
Vapnik,VN(1999)。“统计学习理论概述”,IEEE Transactions on Neural Networks,10(5):988-999