忘记循环神经网络(RNN)中的层-
我试图找出一个RNN的“忘记”层中每个变量的尺寸,但是,我不确定自己是否走对了。下一张图片和等式来自Colah的博客文章“ Understanding LSTM Networks”: 哪里: m * 1xtxtx_t是大小为向量的输入m∗1m∗1m*1 ht−1ht−1h_{t-1}是大小为向量的隐藏状态n∗1n∗1n*1 [xt,ht−1][xt,ht−1][x_t, h_{t-1}]是一个串联(例如,如果,则)xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6] wfwfw_f是大小为矩阵的权重,其中是单元状态的数量(如果在上面的示例中,而,并且如果我们有3个单元状态,则矩阵)k∗(m+n)k∗(m+n)k*(m+n)kkkm=3m=3m=3n=3n=3n=3wf=3∗3wf=3∗3w_f=3*3 bfbfb_f是大小为向量的偏差,其中是单元状态的数量(由于上述示例中,因此是 向量)。k∗1k∗1k*1kkkk=3k=3k=3bfbfb_f3∗13∗13*1 如果将设置为: wfwfw_f⎡⎣⎢1532643754865976108⎤⎦⎥[1234565678910345678]\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 …