我正在尝试训练神经网络进行分类,但是我拥有的标签比较吵(大约30%的标签是错误的)。
交叉熵损失确实有效,但是我想知道在这种情况下是否有其他方法更有效?还是交叉熵损失最优?
我不确定,但是我正在考虑某种程度地“减少”交叉熵损失,这样一个数据点的损失将不大于某个上限,这行得通吗?
谢谢!
更新
根据卢卡斯的答案,我得到了预测输出和softmax函数z的输入的导数。所以我想基本上是在增加一个平滑项3ÿž为导数。p我=0.3/Ñ+0.7Ŷ我升=-Σ吨我登录(p我)∂升37 N
p一世= 0.3 /牛+ 0.7 ÿ一世
l = − ∑ t一世日志(p一世)
∂升∂升∂ÿ一世= - 吨一世∂日志(p一世)∂p一世∂p一世∂ÿ一世= - 0.7 吨一世p一世= - 吨一世37 N+ y一世
衍生物为原交叉熵损失:
∂升∂升∂ž一世= 0.7 ∑ĴŤĴpĴ∂ÿĴ∂ž一世= y一世∑ĴŤĴÿĴ37 N+ yĴ- Ť一世ÿ一世37 N+ y一世
∂升∂升∂ÿ一世= - 吨一世ÿ一世
请让我知道,如果我错了。谢谢!
∂升∂ž一世= y一世- Ť一世
更新
我刚读了Google的一篇论文,该论文采用与卢卡斯的答案相同的公式,但具有不同的解释。
在第7节中,通过标签平滑进行模型正则化
∂升 / ∂ žķ
但是,他们没有将平滑项添加到预测中,而是将其添加到了基本事实中,事实证明这很有帮助。
ϵ