3
神经网络中的Softmax层
我试图将softmax层添加到经过反向传播训练的神经网络中,所以我试图计算其梯度。 softmax输出为其中,j是输出神经元数。HĴ= ežĴ∑ ež一世hj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}Ĵjj 如果我得到它,那么我得到 ∂HĴ∂žĴ= 小时Ĵ(1 - ħĴ)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) 与逻辑回归相似。但是,这是错误的,因为我的数值梯度检查失败。 我究竟做错了什么?我有一个想法,我需要计算交叉衍生物以及(即),但我不知道如何做到这一点,并保持梯度相同的尺寸,因此将适合的反向传播过程。∂HĴ∂žķ∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}