我正在扩展我对Keras软件包的了解,并且一直在使用一些可用的模型作为工具。我有一个NLP二进制分类问题,我正在尝试解决,并且一直在应用不同的模型。
在获得了一些结果并越来越多地了解LSTM之后,看来这种方法远远优于我尝试过的任何方法(跨多个数据集)。我一直在想自己,“为什么/何时不使用LSTM?”。在某些模型的梯度逐渐消失之后,使用LSTM固有的附加门对我来说非常有意义。
那么LSTM有什么收获呢?他们在哪里做得不好?我知道没有“一刀切”的算法,因此LSTM必须有一个缺点。
尝试使用GRU,它们就像LSTM,但是需要较少的内存并训练得更快。
—
Vivek Khetan