硬边际支持向量机的损失函数是什么?


23

人们说软边距SVM使用铰链损耗函数:。但是,软裕量SVM尝试最小化的实际目标函数为 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max(0,1-y_i(w ^ \ intercal x_i + b) ) 有些作者称\ | w \ | ^ 2项正则化器和\ max(0,1-y_i(w ^ \ intercal x_i + b))项损失函数。max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

但是,对于硬边界SVM,整个目标函数只是

12w2
是否意味着硬边界SVM仅使正则化函数最小化而没有任何损失函数?听起来很奇怪。

好吧,如果在这种情况下12w2是损失函数,我们可以称其为二次损失函数吗?如果是这样,为什么硬边界SVM的损失函数在软边界SVM中成为正则化器,并从二次损失变为铰链损失?


据我了解,硬边际意味着您不接受边际数据。因此,MAX(0,计算)始终返回0
FXM

Answers:


26

软裕量SVM中的铰链损耗项imax(0,1yi(wxi+b))惩罚了错误分类。根据定义,在硬边界支持向量机中没有错误分类。

这的确意味着硬边距SVM试图最小化w2。由于SVM问题的表述,裕度为2/w。因此,最小化\ mathbf {w}的范数在w几何上等同于最大化边距。正是我们想要的!

正则化是一种通过对解向量中的大系数进行惩罚来避免过度拟合的技术。在硬边距中,SVM w2既是损失函数也是L2正则化器。

在软边距SVM中,铰链损耗项起着正则化器的作用,但作用在松弛变量而不是w,在L1而不是L2L1正则化导致稀疏性,这就是为什么标准SVM在支持向量方面稀疏的原因(与最小二乘SVM相反)。


您能用更多的细节和数学解释最后两段吗?
Nain

0

为了明确起见, 被最小化,但要受点可线性分离的约束(即,一个人可以绘制一个将两者完全分开的超平面)。换句话说,可以将w视为解决方案的唯一允许值是将两组点分开的值。

12w2

现在,人们认为硬边距SVM比软边距更容易“过度拟合”。带有足够高的的RBF SVM可以轻松想象这点,它可以创建(过度)复杂和(可能)过度拟合的决策边界。边距越难(用较高的“ C”精确地模拟),搜索将越难尝试找到将两类点完美分类的决策边界。γ

当我们转向“软边际”时,约束就放宽了,并通过引入“松弛”来代替约束。该松弛变量用“铰链损耗”术语定义。简化后,每个人都与SVM相关联的损失项就到达了铰链+ 12。FWIW,我希望将SVM看作是一个优化问题,而不是无所不在的“遵循梯度”问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.