Answers:
这是一个讨论线程(从2013年7月开始),表明它可能存在一些问题,但是可以解决。
ÇağlarGülçehre(来自Yoshua Bengio实验室)说,他成功地将以下技术用于知识领域:优化先验信息的重要性:
像往常一样训练第一个DAE,但在隐藏层使用整流器:
a1(x) = W1 x + b1 h1 = f1(x) = rectifier(a1(x)) g1(h1) = {sigmoid}(V1 h1 + c1)
比较g1(f1(corrupt(x)))和x,以最小化交叉熵或MSE损失。sigmoid是可选的,具体取决于数据。
h2 = f2(h1) = rectifier(W2 h1 + b2) g2(h2) = softplus(V2 h2 + c2)
泽维尔Glorot,还从Bengio实验室,说他只是用相同的与罚“的激活值”(大概两个?)领域适应性的大规模情感分类:深度学习方法(ICML 2011)和深度稀疏整流器神经网络(AISTATS 2011)。