我观察到Caffe(深度学习框架)使用Softmax损失层 SoftmaxWithLoss
作为大多数模型样本的输出层。
据我所知,Softmax损失层是多项逻辑损失层和Softmax层的组合。
他们从Caffe说
Softmax损失层梯度计算在数值上更稳定
但是,这种解释不是我想要的答案,它只是比较多项逻辑损失层和Softmax损失层的组合,而不是逐层进行比较。但是不能与其他类型的损失函数相比较。
但是,我想更多地了解在监督学习的角度来看这3个误差函数(即多项式Logistic损失,交叉熵(CE)和平方误差(SE))的区别/优点/缺点是什么?有支持文章吗?
y-t
。willamette.edu/~gorr/classes/cs449/classify.html