反馈RNN与LSTM / GRU之间的差异


19

我试图理解要应用于时间序列数据的不同的递归神经网络(RNN)架构,并且对描述RNN时经常使用的不同名称感到有些困惑。长期短期记忆(LSTM)和门控循环单元(GRU)的结构是否实质上是带有反馈回路的RNN?


2
请说出您的缩写。
gung-恢复莫妮卡

Answers:


33

所有RNN在递归层中都有反馈回路。这样,他们就可以随着时间的推移在“内存”中维护信息。但是,训练标准RNN来解决需要学习长期时间依赖性的问题可能很困难。这是因为损失函数的梯度随时间呈指数衰减(称为消失梯度问题)。LSTM网络是一种RNN,除了标准单位外,它还使用特殊单位。LSTM单元包括一个“内存单元”,可以长时间在内存中维护信息。一组门用于控制信息何时进入内存,何时输出以及何时忘记。这种体系结构使他们可以学习长期依赖关系。GRU与LSTM相似,但使用简化的结构。

本文提供了很好的概述:

Chung等。(2014)。门控递归神经网络的序列建模经验评估。


5

标准RNN(递归神经网络)遭受梯度消失和爆炸的困扰。LSTM(长期短期记忆)通过引入新的门(例如输入门和忘记门)来解决这些问题,从而可以更好地控制梯度流并更好地保存“远程依赖项”。


2

LSTM通常被称为高级RNN。香草RNN没有单元状态。它们仅具有隐藏状态,这些隐藏状态充当RNN的内存。

同时,LSTM同时具有单元状态和隐藏状态。单元状态具有删除信息或向单元添加信息的能力,由“门”控制。而且由于有了这个“单元”,从理论上讲,LSTM应该能够处理长期依赖关系(在实践中,很难做到这一点。)


-1

TL; DR

可以说,当我们从RNN迁移到LSTM(长期短期记忆)时,我们引入了越来越多的控制旋钮,它们根据训练有素的权重来控制输入的流量和混合。因此,在控制输出方面带来更大的灵活性。因此,LSTM为我们提供了最大的可控制性,从而获得了更好的结果。但同时也带来了更高的复杂性和运营成本。

参考


[ 注意 ]:

LSTM是GRU的扩展版本。


此图演示了它们之间的区别:

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.