使用LSTM
带缺失的多层,是否建议在所有隐藏层以及输出密集层上放置缺失?在欣顿的论文(提出了Dropout)中,他只将Dropout放在了Dense层上,但这是因为隐藏的内部层是卷积的。
显然,我可以测试我的特定模型,但是我想知道是否对此达成共识?
3
如果您有兴趣,可以对循环网络中的辍学问题进行一些很好的讨论:arxiv.org/abs/1512.05287 Gal,Yarin和Zoubin Ghahramani。“递归在递归神经网络中的理论基础应用。” 神经信息处理系统的进步。2016.
—
redhqs
似乎印证了什么@media说下面
—
BigBadMe