在分类中选择不同的损失函数以近似0-1损失有什么影响

我们知道有些目标函数更容易优化，而有些则很难。而且我们有很多损失函数要使用但很难使用，例如0-1损失。因此，我们找到了一些代理丢失功能来完成这项工作。例如，我们使用铰链损失或逻辑损失来“近似” 0-1损失。

接下来的情节来自克里斯·毕晓普（Chris Bishop）的PRML书。铰链损耗用蓝色绘制，对数损耗用红色绘制，平方损耗用绿色绘制，0/1误差用黑色绘制。

我了解我们之所以设计（针对铰链和逻辑损失）的原因是我们希望目标函数是凸的。

通过查看铰链损失和逻辑损失，它会对严重错误分类的实例进行更严厉的处罚，有趣的是，如果分类不正确，则还会对正确分类的实例进行惩罚。这是一个非常奇怪的设计。

我的问题是，通过使用不同的“代理损失函数”（例如铰链损失和物流损失），我们需要支付的价格是多少？

— 海涛都
source

在回归中，与绝对值损失相比，选择平方损失更易于进行优化。但是平方损失对异常值更为敏感。那么，它也应该对某些类型的数据敏感吗？

— 海涛杜

一个更简单的解决方案是开发不需要效用函数的最佳预测概率。实用程序/损失功能可以在以后由实际决策者应用。分类等同于为决策者做出决策，并且需要太多的知识。

— Frank Harrell

@FrankHarrell谢谢，我使用的是您在工作中提到的方法，我们将预测和业务运营分开。但是，这仍然不是一个整体优化的方案，而是一个贪婪的分阶段本地解决方案，对吧？这是“鸵鸟政策”吗？

— 海涛杜

它可能不会导致最佳决策。损失/效用/成本函数不是来自模型预测器。

— Frank Harrell

+1。使逻辑损失最小化对应于使二项式可能性最大化。最小化平方误差损失对应于最大化高斯似然（这只是OLS回归；对于2类分类，它实际上等效于LDA）。您知道最小化铰链损耗是否对应于最大化其他可能性？即是否存在与铰链损耗相对应的概率模型？

— 变形虫说恢复莫妮卡

Answers:

我的一些想法可能并不正确。

我了解我们之所以设计（针对铰链和逻辑损失）的原因是我们希望目标函数是凸的。

凸性当然是一个不错的性质，但是我认为最重要的原因是我们希望目标函数具有非零导数，以便我们可以利用导数来求解它。目标函数可以是非凸函数，在这种情况下，我们通常只停留在某些局部最优点或鞍点处。

有趣的是，如果分类正确的实例被弱分类，它也会受到惩罚。这是一个非常奇怪的设计。

我认为这种设计建议模型不仅要做出正确的预测，还要对预测充满信心。如果我们不希望对正确分类的实例进行惩罚，例如，可以将铰链损失（蓝色）向左移动1，以使它们不再遭受任何损失。但是我相信这通常会导致实践中更糟糕的结果。

我们需要使用不同的“代理损失函数”（例如铰链损失和物流损失）来支付的价格是多少？

IMO通过选择不同的损失函数，为模型带来了不同的假设。例如，逻辑回归损失（红色）假定为伯努利分布，MSE损失（绿色）假定为高斯噪声。

遵循PRML中最小二乘与逻辑回归的示例，我添加了铰链损耗以进行比较。

如图所示，铰链损失和逻辑回归/交叉熵/对数似然性/ softplus具有非常接近的结果，因为它们的目标函数很接近（下图），而MSE通常对异常值更为敏感。铰链损失并非总是具有唯一的解决方案，因为它不是严格凸的。

但是，铰链丢失的一个重要属性是，远离决策边界的数据点对丢失没有任何影响，删除这些点后的解决方案将是相同的。

在SVM的上下文中，其余点称为支持向量。而SVM使用正则化项来确保最大的保证金属性和独特的解决方案。

— Dontloo
source

感谢您的回答。是否可以创建一些演示来直观地显示不同损失的影响？就像我们通过使用平方损失与最小绝对损失进行回归的异常值来显示影响一样。

— 海涛杜

@ hxd1011，欢迎您，稍后我将尝试添加一些演示。

— dontloo '16

铰链的损失是凸的……

— Mustafa S Eisa

@ MustafaM.Eisa对，谢谢，我的意思不是严格凸

— 。–

@dontloo很棒的模拟！谢谢。稍后，我还将尝试上传一些模拟。

— 海涛杜

发布一个较晚的答复，因为有一个非常简单的答案尚未被提及。

我们需要使用不同的“代理损失函数”（例如铰链损失和物流损失）来支付的价格是多少？

当您用凸代理替换非凸 0-1损失函数（例如，铰链损耗）时，实际上您正在解决的问题与要解决的问题不同（这是为了最大程度地减少分类错误的数量）。因此，您可以获得计算的可处理性（问题变成凸面的，这意味着您可以使用凸面优化的工具有效地解决它），但是在一般情况下，实际上没有办法将分类器的误差与最小化“代理”损失和最小化0-1损失的分类器的误差。如果您真正关心的是尽量减少错误分类的数量，那么我认为这确实是一个很大的代价。

我要指出的是，这种说法在任何分布适用的意义上是最坏的情况。对于某些“不错的”发行版，此规则也有例外。关键示例是具有较大决策边界裕度的数据分布-请参见Shalev-Shwartz，Shai和Shai Ben-David中的定理15.4 。了解机器学习：从理论到算法。剑桥大学出版社，2014年。 $\mathcal D$

— galoosh33
source

理想情况下，您的损失函数应反映企业实际发生的损失。例如，如果您要对损坏的货物进行分类，那么分类错误的损失可能是这样的：

标记未损坏的商品：潜在销售利润损失
未标记损坏的损坏商品：退货处理成本

— 阿克萨卡尔族
source