为什么将SVM解释为分类概率是错误的?


11

我对SVM的理解是,它与逻辑回归(LR)非常相似,即将特征的加权总和传递给S形函数以获取属于一类的概率,而不是交叉熵(逻辑)损失功能,使用铰链损失进行训练。使用铰链损失的好处是可以执行各种数值技巧来使内核化更加有效。但是,缺点是所得模型的信息少于相应的LR模型可能具有的信息。因此,例如,如果没有内核化(使用线性内核),SVM决策边界仍将位于LR输出0.5的概率所在的相同位置,无法判断属于一类的概率从SVM 衰减的速度有多快。决策边界。

我的两个问题是:

  1. 我上面的解释正确吗?
  2. 使用铰链损失如何使将SVM结果解释为概率无效?

Answers:


8

SVM不会将任何内容输入到S型函数中。它使分离的超平面适合于数据,该数据试图将训练集中的所有数据点放在一侧,而另一类的所有点放在另一侧。因此,它根据特征向量位于哪一侧来分配类。更正式地说,如果将特征向量表示为,平面系数表示为而将为截距,则类分配为。解决SVM等于找到xββ0y=sign(βx+β0)β,β0从而最大程度地减少了铰链损失。因此,由于SVM仅在乎超平面的哪一侧,因此无法将其类分配转换为概率。

如果是线性SVM(无内核),则决策边界边界将类似于逻辑回归模型的边界,但可能会有所不同,具体取决于您用于拟合SVM的规则化强度。由于SVM和LR解决了不同的优化问题,因此不能保证您对决策边界具有相同的解决方案。

关于SVM的资源很多,这将有助于弄清事情:是一个示例,另一个是示例。


higgs boson这非常有帮助,谢谢!只是几个后续问题:(1)当SVM决策边界与LR不相似时,您能举一个直观的例子吗?(2)线性SVM和LR之一通常比另一个更好,或者是否存在哪种类型的问题更可取?
GingerBadger

2
Alex:通常,线性SVM和LR在实践中通常具有可比性。如果需要概率输出,请使用LR。如果您只关心类分配,则可以使用其中一种。如果您想要一个示例,它们的决策边界将大不相同,则可以想象一个线性可分离的数据集,其中有少数错误类的点远离决策边界。离群值将拉近逻辑回归边界,但如果您的SVM具有足够大的正则化项,它将有效地忽略离群值。
希格斯·布罗森(Higgs Broson)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.