SVM的一般化界限


11

我对支持向量机的泛化能力的理论结果感兴趣,例如,这些机器的分类错误概率和Vapnik-Chervonenkis(VC)维度的界限。但是,通读文献后,我的印象是,某些相似的重复结果往往因作者而略有不同,尤其是在一定的持有范围内需要的技术条件方面。

在下面我会记得的SVM问题和主要成果概括状态3,我已经在这种或那种形式反复发现的结构我给整个博览会3个主引用。

问题设置

假设我们有一个独立且均布的(iid)对的数据样本,其中所有,和。我们构造了一个支持向量机(SVM),该向量使,和定义的分离超平面之间的最小余量最大化。,以及之间最接近的点以便将和定义的两个类分开。我们通过引入松弛变量让SVM通过软裕度来承认一些错误(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1 -ξ1,,ξn 但为了表示简单起见,我们忽略了内核的可能性。解参数和是通过求解以下凸二次优化程序获得的:b wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

我们对这台机器的综合能力很感兴趣。

Vapnik-Chervonenkis尺寸VC

第一个结果是由于(Vapnik,2000),他将一个分离的超平面的VC维定界为定理5.1。令, 我们有:R=maxxixi

VCmin((Rm)2,p)+1

可以再次在(Burges,1998)定理6中找到该结果。但是,看来Burges定理比Vapnik的相同结果更具限制性,因为他需要定义一个特殊的分类器类别,称为容差分类器。到所述SVM属于,陈述定理。

错误概率的界限

在(Vapnik,2000)中,第139页的定理5.2对SVM泛化能力给出了以下限制:

E[Perror]1nE[min(p,nSV,(Rw)2)]

其中,是SVM的支持向量的数量。似乎分别在(Burges,1998)等式(86)和(93)中再次发现了这一结果。但是同样,伯吉斯似乎与Vapnik不同,因为他在不同的定理,不同的条件下,将上述最小函数中的组件分开。nSV

在(Vapnik,2000),p.133中出现的另一个结果如下。再次假设,对于所有,并令和,我们定义等于:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

我们还将定义为SVM错误分类的训练示例数。然后用概率我们可以断言,该试验例将不会被正确地分离的概率 -margin超平面即SVM与余量已结合的:nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

但是,在(Hastie,Tibshirani和Friedman,2009年)第438页中,发现了非常相似的结果:

ErrorTestζ

结论

在我看来,这些结果之间存在一定程度的冲突。另一方面,尽管其中的两个参考文献在SVM文献中是规范的,但它们开始显得有些陈旧(1998年和2000年),特别是如果我们认为对SVM算法的研究始于90年代中期。

我的问题是:

  • 这些结果今天仍然有效,还是被证明是错误的?
  • 从那以后,有没有得出相对宽松条件下的更严格界限?如果是这样,我可以在哪里找到他们?
  • 最后,是否有任何参考资料可以综合有关SVM的主要概括结果?

参考文献

Burges,JC(1998)。“用于模式识别的支持向量机教程”,数据挖掘和知识发现,2:121-167

Hastie,T.,Tibshirani,R.和Friedman,J.(2009)。统计学习的要素,第二版,Springer

Vapnik,VN(1998)。统计学习理论,第一版,约翰·威利父子

Vapnik,VN(1999)。“统计学习理论概述”,IEEE Transactions on Neural Networks,10(5):988-999

Vapnik,VN(2000)。统计学习理论的性质,第二版,Springer


概述SVM的最新技术水平(截至2008年)的参考:“支持向量机”(Ingo Steinwart,Andreas Christmann,Springer 2008)
注册

Answers:


3

我不了解您所详细参考的文献,但是我认为应该在Boucheron等人的文章中找到应该最新的泛化范围的综合摘要。(2004年)(链接:https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003-堪培拉-澳大利亚-2003年2月2日至14日-图宾根-德国-2003年8月4日至16日-修订后的讲座.pdf#page = 176

我将在下面概述SVM的一部分,并省略细节和证明。

在详细阐述SVM边界之前,我们需要了解泛化边界要实现的目标。

首先,让我们假设已知真实概率,然后最好的分类器就是贝叶斯分类器,即 P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

现在,统计学习理论的目标是找出类分类器(例如SVM) 和贝叶斯分类器,即 注意,是给定数据的预期损失,而是模型类最好的分类器。术语被称为估计误差,通常被称为焦点,因为它比近似误差(另一个术语)更容易界定。我还将在此处省略近似误差。C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

可以用进一步分解 估计误差 现在可以分为两个步骤:Z

Z=ZEZ+EZ.
  1. 使用McDiarmid不等式的绑定ZEZ

  2. 结合与拉德马赫复杂EZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

使用McDiarmids不等式可以表明,如果损失函数的区间不超过,则第一步导致 ,其中是置信度。第二步,我们可以证明 如果您有离散的损失函数,即非Lipschitz,例如0-1 -损失,您将需要VC-Dimension来进一步限制Rademacher复杂度。但是,对于L-lipschitz函数(例如铰链损耗),可以用来进一步限制, 其中B

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λ表示正则化器。因为对于铰链损耗和 λR(经Gauchy-Schwartz不等式证明),这进一步简化了。最后将所有结果放在一起,我们可以将 L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.