2
多项式逻辑损失vs(交叉熵vs平方误差)
我观察到Caffe(深度学习框架)使用Softmax损失层 SoftmaxWithLoss作为大多数模型样本的输出层。 据我所知,Softmax损失层是多项逻辑损失层和Softmax层的组合。 他们从Caffe说 Softmax损失层梯度计算在数值上更稳定 但是,这种解释不是我想要的答案,它只是比较多项逻辑损失层和Softmax损失层的组合,而不是逐层进行比较。但是不能与其他类型的损失函数相比较。 但是,我想更多地了解在监督学习的角度来看这3个误差函数(即多项式Logistic损失,交叉熵(CE)和平方误差(SE))的区别/优点/缺点是什么?有支持文章吗?