为什么要分别估计SVM中的偏差项而不是特征向量中的额外维?


11

SVM中的最佳超平面定义为:

wx+b=0,

其中b代表阈值。如果我们有一些映射ϕ将输入空间映射到某个空间Z,我们可以在空间定义SVM Z,其中最佳水平平面将是:

wϕ(x)+b=0.

然而,我们可以总是限定映射ϕ使得ϕ0(x)=1x,然后将最佳hiperplane将被定义为

wϕ(x)=0.

问题:

  1. 为什么许多论文使用wϕ(x)+b=0时,他们已经有映射ϕ和参数估计w和theshold b separatelly?

  2. 小号Ťÿ Ñ 瓦特·& φ X Ñ1Ñ

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. 如果可以从问题2定义SVM,则将具有w=nynαnϕ(xn)并且阈值将仅为b=w0,我们将不对其进行单独处理。因此,我们绝不会使用像b = t_n- \ mathbf w \ cdot \ phi(\ mathbf x_n)这样的公式b=tnwϕ(xn)来从某些支持向量x_n估计b。对?bxn


Answers:


12

为什么偏见很重要?

偏差项实际上是SVM中的一个特殊参数。没有它,分类器将始终遍历原点。因此,除非您有偏差项,否则SVM不会恰好通过原点,因此不会为您提供最大裕度的分离超平面。b

以下是偏见问题的可视化。左侧(右侧)显示了经过训练(没有偏置项)的SVM。即使两个SVM都在相同的数据上训练,但是它们看起来却大不相同。

在此处输入图片说明

为什么要分开对待偏见?

正如Ben DAI指出的,由于正则化,应单独对待偏差项。SVM将保证金大小最大化,即(或具体取决于您如何定义)。1b 21||w||22||w||2

最大化余量与最小化。这也称为正则化项,可以解释为衡量分类器复杂性的方法。但是,您不希望对偏差项进行正则化,因为对于所有数据点,偏差都会使分类得分上下移动相同的数量。特别是,偏差不会更改分类器的形状或其边距大小。因此...||w||2

SVM中的偏差项不应正规化。

但是,在实践中,将偏见推入特征向量会更容易,而不必进行特殊处理。

注意:将偏见推向特征函数时,最好将特征向量的维固定为较大的值,例如,以最大程度地减少偏见正则化的副作用。ϕ0(x)=10


出于好奇,您使用什么程序生成图?
d0rmLife 2015年

1
@ d0rmLife:这只是我使用MS PowerPoint制作的动画片!
索比2015年


1

有时,人们会在SVM中忽略拦截,但我认为原因也许我们可以对拦截进行惩罚以忽略它。即

我们可以修改数据和以便省略截距 如你说,类似的技术可以在内核版本中使用。x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

但是,如果将截距设为权重,则目标函数将与原始函数略有不同。这就是为什么我们称“惩罚”。


我同意我们将具有不同的目标职能。当我们在参数中不包含intercept情况导致优化问题受约束,否则我们有问题。但是,我不明白为什么对模型大加推广的重要性不重要。bminw,b||w||2minw,b||w||2+b2
Dejan 2015年

我想到的是,我们相交的主要原因可能是因为在双重问题中,拦截使我们具有约束,这对于应用SMO算法很重要,如果我们没有拦截,则将仅具有常量并且在这种情况下,双重优化会更加困难。αntn=0αn0
Dejan 2015年

@Petar我知道的一件事是,当我们考虑此模型的Dual形式时,它将变得强大。此技术将消除线性约束。
Ben Dai

@Petar我不认为双重优化会更困难,因为我们拥有更简单的域。
Ben Dai

@Petar对于特定算法,可能会更难。但是,从数学上讲,我认为框域可能更好
Ben Dai

0

在另外的原因如上所述,点的距离由斜率定义为一个超平面和截距是 这是如何SVM中的保证金概念被提倡。如果将更改为包含截距项,则的范数将受截距大小的影响,这将导致SVM向较小的截距进行优化,这在许多情况下没有意义。xθb

|θTx+b|||θ||
θbθ


即使认为点到超平面的距离是正确的并且解释看起来很有趣,我也看不到此公式与训练SVM之间的相关性。您能否更好地说明此公式在培训过程中的用法或提供其他链接。
Dejan

@Dejan SVM背后的想法是找到使数据集最小裕量最大化的超平面。裕度是指向超平面的点的“距离”(,不取绝对值,这表示分类器对其假设的置信度)。乘以其标签,即。乘积为,如果分类器输出与标签匹配,则为正,否则为负。实际上,我们只是对模型进行缩放,以使数据集的最小边距为。{-11}ÿθŤX+bθTx+b||θ||{1,1}1个y(θTx+b)||θ||1||θ||
charlieh_19年

@Dejan您可以在Andrew Ng的注释中找到更多详细信息:cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.