铰链损失与物流损失的优缺点/局限性


14

铰链损失可以使用定义max(0,1yiwTxi)和日志损失可以被定义为log(1+exp(yiwTxi))

我有以下问题:

  1. 铰链丢失是否存在任何缺点(例如,对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)?

  2. 一个与另一个相比有什么区别,优点和缺点?

Answers:


22

对数损失最小化会导致行为表现良好。

铰链损失会导致对偶出现某种程度的稀疏性(但不能保证),但对概率估计没有帮助。相反,它会惩罚分类错误(这就是确定边距如此有用的原因):减少铰链损耗伴随着减少边距错误分类。

因此,总结一下:

  • 对数损失导致以准确性为代价的更好的概率估计

  • 铰链损失导致更好的准确性和一些稀疏性,但代价是对概率的敏感性大大降低


1
+1。使逻辑损失最小化对应于使二项式可能性最大化。最小化平方误差损失对应于最大化高斯似然(这只是OLS回归;对于2类分类,它实际上等效于LDA)。您知道最小化铰链损耗是否对应于最大化其他可能性?即有没有对应于铰链损失的概率模型?
变形虫说恢复莫妮卡

1
@amoeba这是一个有趣的问题,但是SVM本质上不是基于统计建模的。话虽如此,请检查Glen_b的答案。整个线程都围绕它,但是对于不对ε敏感的铰链。
Firebug

4

@Firebug的回答很好(+1)。实际上,我在这里也有类似的问题。

在分类中选择不同的损失函数以近似0-1损失有什么影响

我只想在后勤损失的另一个主要优势上添加更多信息:概率解释。一个例子,可以在这里找到

具体地说,逻辑回归是统计文献中的经典模型。(请参阅“ Logistic回归”这个名称的含义。)有许多与Logistic损失有关的重要概念,例如最大化对数似然估计,似然比检验以及对二项式的假设。这里是一些相关的讨论。

R中的似然比检验

为什么Logistic回归不称为Logistic分类?

是否存在逻辑回归的iid假设?

Logit和Probit模型之间的区别


1

由于@ hxd1011增加了交叉熵的优点,因此我将添加它的一个缺点。

交叉熵误差是概率分布之间的许多距离度量之一,但是它的一个缺点是,对尾部较长的分布的建模较差,对不太可能发生的事件赋予了过多的权重。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.