为什么0-1损失函数很难处理?


12

在伊恩·古德费洛(Ian Goodfellow)的深度学习书中,写道

有时,我们实际上关心的损失函数(例如分类错误)并不是可以有效优化的函数。例如,即使对于线性分类器,精确地将期望的0-1损失最小化通常也是棘手的(输入维度上的指数)。在这种情况下,通常通常会优化替代损失函数,该函数充当代理但具有优势。

为什么0-1损失难以解决,或者在输入维度中它如何指数化?

Answers:


18

β1个ÿ一世βX一世0一世2ññ总采样点。已知这是NP困难的。知道损失函数的当前值并不能提供有关如何修改当前解决方案以进行改进的任何线索,因为可以推导出是否可以使用凸函数或连续函数的梯度方法。


1
很好-在实践中,随机搜索或穷举搜索是唯一可用于查找此类损失函数最小值的方法,对吗?
DeltaIV '18

2
^^还是基于进化/群体的情报方法?
samra irshad '18

@samrairshad是的,实际上0-1损失在进化方法中并不罕见。
John Doucette '18

在从随机搜索过渡到复杂的进化/群算法之前,我将检查交叉熵方法(CEM)。
最长

1

实际上,分类错误有时很容易解决。可以使用Nelder-Mead方法有效(尽管不是完全准确)对其进行优化,如本文所示:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

“降维是将多维矢量转换为低维空间的过程。在模式识别中,通常希望执行此任务而不会大量损失分类信息。贝叶斯误差是实现此目的的理想标准;但是,因此,在实践中使用了次优准则,我们基于贝叶斯误差的估计提出了一个替代准则,希望该准则比当前使用的准则更接近最佳准则。根据这一标准,设计并实现了一种用于线性降维的算法,实验证明了其与常规算法相比的优越性能。”

这里提到的贝叶斯误差基本上是0-1损失。

这项工作是在减小线性尺寸的情况下完成的。我不知道这对于训练深度学习网络有多有效。但问题的关键在于,0-1损失并非普遍难以解决。对于至少某些类型的模型,可以相对较好地进行优化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.