SVM算法背后的统计模型是什么?


28

我了解到,在使用基于模型的方法处理数据时,第一步是将数据过程建模为统计模型。然后,下一步就是基于此统计模型开发有效/快速的推理/学习算法。所以我想问问支持向量机(SVM)算法背后的统计模型是什么?

Answers:


27

您通常可以编写一个与损失函数相对应的模型(在这里,我将讨论SVM回归而不是SVM分类;这特别简单)

例如,在一个线性模型,如果你的损失函数是然后最小化将对应于最大似然为˚F α EXP - ig(εi)=ig(yixiβ)= EXP - fexp(ag(ε)) 。(这里有一个线性核)=exp(ag(yxβ))

如果我没记错的话,SVM回归具有如下损失函数:

ε不敏感损失图

这对应于在中间带有指数尾部的均匀密度(如我们通过对负数或负数进行乘幂运算而看到的)。

对应密度图

其中有3个参数系列:转角位置(相对不敏感度阈值)加上位置和比例。

这是一个有趣的密度;如果我回想起几十年前的特定分布,对位置的一个很好的估计是,它是对应于拐角位置的两个对称放置的分位数的平均值(例如,对于一个特定的位置,midhinge可以很好地近似MLE在SVM损失中选择常数); 类似的比例参数估计器将基于它们的差异,而第三个参数基本上对应于确定拐角处的百分位(可以选择而不是通常对SVM进行估计)。

因此,至少对于SVM回归而言,这似乎非常简单,至少在我们选择以最大可能性获得估计量的情况下。

(以防万一您要问……对于SVM的这种特殊连接,我没有任何参考:我现在已经解决了。这很简单,但是,数十个人已经在我之前解决了这个问题,所以毫无疑问还有因为它引用-我只是从来没有见过)。


2
(我之前在其他地方回答过这个问题,但是当我看到你也在这里问到的时候,我将其删除并移到了这里;在这里写数学和包含图片的能力要好得多-搜索功能也更好,因此在其中查找起来更容易几个月)
Glen_b-恢复莫妮卡的状态

2
1,再加上香草SVM还具有高斯先验其参数通过范数。2
Firebug

2
如果OP询问有关SVM的信息,他/她可能对分类感兴趣(这是SVM的最常见应用)。在那种情况下,损失就是铰链损失,这有所不同(您没有增加部分)。关于该模型,我在会议上听到学者说,引入了SVM可以执行分类不必使用概率框架。也许这就是为什么您找不到引用。另一方面,您可以,也可以将铰链损耗最小化重塑为经验风险最小化-这意味着...
DeltaIV

4
仅仅因为您不必拥有一个概率框架...并不意味着您正在做的事情与一个框架不符。一个人可以在不假设正态性的情况下进行最小二乘,但是了解它在哪些方面做得很好是很有用的……而当您距离它不远时,它可能做得不好。
Glen_b-恢复莫妮卡的状态

3
也许icml-2011.org/papers/386_icmlpaper.pdf 可以作为参考吗?(我只是略读了一下)
Lyndon White

8

我认为有人已经回答了您的字面问题,但让我澄清一下潜在的困惑。

您的问题有点类似于以下内容:

我有这个函数,我想知道它对什么微分方程的解?f(x)=

换句话说,它肯定一个有效的答案(如果强加了规律性约束,甚至可能是一个唯一的答案),但这是一个很奇怪的问题,因为它并不是首先引起该函数的微分方程。
(在另一方面,给出的微分方程,它自然的,要求其解决方案,因为这通常是为什么你写的公式!)

原因如下:我认为您正在考虑概率/统计模型-具体来说是基于数据的联合概率和条件概率的生成模型和判别模型。

SVM都不是。这是一种完全不同的模型-绕过那些模型并尝试直接对最终决策边界建模,从而使概率大打折扣。

由于它是要找到决策边界的形状,因此其背后的直觉是几何的(也许应该说基于优化),而不是概率或统计的。

鉴于在整个过程中都没有真正考虑到概率,因此询问对应的概率模型是什么是非常不寻常的,尤其是因为整个目标都是避免担心概率。因此,为什么您看不到别人在谈论他们。


6
我认为您轻视了作为过程基础的统计模型的价值。之所以有用,是因为它告诉您方法背后的假设。如果您知道这些,就可以了解它在哪些情况下会遇到困难以及何时会蓬勃发展。如果您具有基础模型,则还可以以有原则的方式概括和扩展svm。
概率

3
@probabilityislogic:“我认为您不重视程序所依据的统计模型的价值。” ...我认为我们正在互相讲话。我要说的是,该程序背后没有统计模型。我并不是说不可能提出一个适合它的后验方法,但是我试图解释的是,它并非以任何方式“落后于”它,而是在事实之后 “适合于”它。我并不是说做这样的事情是没有用的。我同意您的看法,它可能会带来巨大的价值。请记住这些区别。
Mehrdad

1
@Mehrdad:我并不是说不可能提出一个适合它的后验原理,我们称之为svm“机器”的零件的组装顺序(设计它的人最初尝试的是什么问题?从科学史的角度来看很有趣。但是,就我们所知,在某些库中可能有一个未知的手稿,其中包含对200年前的svm引擎的描述,它从Glen_b探索的角度解决了这个问题。也许后验的概念 和事后事实在科学上不太可靠。
user603

1
@ user603:问题不仅仅在于历史。历史只是它的一半。另一半是通常如何在现实中实际得出。它以几何问题开始,以优化问题结束。没有人从推导概率模型开始,这意味着概率模型在任何意义上都不在结果的后面。就像声称拉格朗日力学在“后面” F = ma一样。也许它可以导致它,是的,它是有用的,但是,不是,它不是而且从来不是它的基础。实际上,整个目标避免可能性。
Mehrdad
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.