Answers:
这完全取决于数据的性质和内部相关性,没有经验法则。但是,鉴于您拥有大量数据,因此2层LSTM可以对大量时间序列问题/基准进行建模。
此外,您不会向后传播整个系列,而通常会向后传播(200-300)个最后步骤。要找到最佳值,您可以使用网格搜索或贝叶斯优化对它进行交叉验证。此外,您可以在此处查看参数:https : //github.com/wojzaremba/lstm/blob/master/main.lua。
因此,序列长度并不会真正影响您的模型训练,但是就像有更多训练示例一样,您只需保留先前的状态而不是将其重置即可。
y
。这样,RNN将如何根据为BPTT选择的35个步骤之前的任何内容来调整权重?