具有L2正则化的RNN停止学习


10

我使用双向RNN来检测不平衡事件的发生。积极的阶层比消极的阶层少100倍。尽管不使用正则化,但我可以在训练集上获得100%的准确性,在验证集上获得30%的准确性。我启用了l2正则化,结果在训练集上的准确度也只有30%,而不是更长的学习,而在验证集上的准确度是100%。

我当时以为我的数据可能太小了,所以只是为了进行实验,我将训练集与以前未使用的测试集合并了。情况与我使用l2正则化的情况相同,而我现在没有。我在训练+测试和验证中获得了30%的准确性。

在提到的实验中使用128个隐藏单元和80个时间步长当我将隐藏单元的数量增加到256个时,我可以再次在Train + Test Set上过拟合以达到100%的准确性,但在验证组上仍然只有30%。

我确实为超参数尝试了很多选项,但几乎没有结果。可能是加权的交叉熵引起了问题,在给定的实验中,正类的权重为5。尝试更大的权重时,结果的准确性通常会降低20%左右。

我尝试了LSTM和GRU细胞,没有区别。

我得到的最好的结果。我尝试了2个具有256个隐藏单元的隐藏层,这花了大约3天的计算时间和8GB的GPU内存。在进行l2正则化时,我再次获得了40-50%的准确度,然后又开始过度拟合,但强度不高。

我使用的是Adam优化器,其他的则效果不佳。我拥有的功能就足够了,因为在使用状态机时,我可以获得90%的精度。在该状态机中,主要特征是基于其他特征属性进行求和和阈值处理,并且其可变长度有时为10,有时为20,涉及该特征的时间戳。

在这种情况下,有一些一般性准则可以做什么?我什么都找不到。

Answers:


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.