Answers:
我不确定这是否能准确回答您的问题,但是据我所知,您没有看到人们进行预训练(我的意思是无监督的预训练),这是因为在纯粹的监督训练中存在各种创新,已经使无监督的预训练变得不必要了(目前,谁知道未来会遇到什么问题和问题?)。
Glorot,Bordes和Bengio的文章将ReLU用于多层感知器而不是Conv Nets。上一篇文章,贾里特(Jarret)和Yann LeCun的纽约大学(NYU)小组的其他人介绍什么是最佳的多阶段对象识别体系结构,但使用了非线性校正功能,但对于S形单位,它们的激活函数形式为这两篇文章都指出,使用校正非线性似乎弥合了纯监督方法和无监督预训练方法之间的大部分差距。
另一个创新是我们为深度网络找到了更好的初始化方法。多年来,使用标准化网络各层差异的想法,已经建立了良好的经验法则。最早,最受欢迎的方法之一是Glorot和Bengio 了解深度前馈网络的训练难度,该方法提供了一种在线性激活假设下初始化深层网络的方法,随后又提供了深入研究Deep Into Rectifiers的方法。由一组Microsoft研究小组成员修改了Glorot和Bengio权重初始化以解决非线性校正问题。权重初始化对于极深的网络来说意义重大。对于30层的卷积网络,MSR权重初始化的性能要好于Glorot权重初始化。请记住,Glorot纸于2010年问世,MSR纸于2015年问世。
我不确定Alex Krizhevsky,Ilya Sutskever和Geoff Hinton 撰写的使用深度卷积神经网络进行ImageNet分类是否是最早将ReLU用于卷积网络的论文,但它的影响最大。在本文中,我们看到卷积网络的ReLU加快了学习速度,这是由其CIFAR-10图之一所证明的,该图显示ReLU卷积网络可以比非ReLU卷积网络更快地实现更低的训练错误率。这些ReLU不会遭受消失的梯度/饱和S形问题的困扰,可用于训练更深的网。其他重大创新之一是使用Dropout训练,一种随机噪声注入或模型平均技术(取决于您的观点),它使我们可以训练更深,更大的神经网络,而又不会过度拟合。
转化技术的创新持续以惊人的速度进行,几乎所有使用ReLU(或Microsoft Research的PReLU的修改),Dropout和纯监督训练(SGD + Momentum)的方法,可能还有一些自适应学习率技术,例如RMSProp或ADAGrad )。
因此,到目前为止,许多性能最高的转换网似乎都是纯粹受监管的。这并不是说无监督的预培训或使用无监督的技术在将来可能并不重要。但是,仅使用监督训练,就可以对非常丰富的深度转换网络进行训练,在非常丰富的数据集上达到或超过人类水平的性能。实际上,我相信最新的Microsoft Research提交给ImageNet 2015竞赛的作品有150层。那不是错字。150。
如果您想对卷积网使用无监督的预培训,我认为您最好找到一项任务,其中“标准”的卷积网的有监督的培训效果不佳,然后尝试无监督的预培训。
与自然语言建模不同,似乎很难找到一个无监督的任务来帮助处理涉及图像数据的相应有监督的任务。但是,如果您足够了解互联网,就会看到一些深度学习的先驱(Yoshua Bengio,Yann LeCun等)谈论他们认为无监督学习的重要性和重要性。
从以上答案可以理解,当发生多件事时,预训练是“过时的”。但是,我确实想提炼一下我的理解:
因此,您可以看到,预训练从形式上变为了预处理和权重初始化,但仍保留在功能中,并且变得更加优雅。
最后,机器学习非常流行。我个人打赌像吴安德(Andrew Ng)一样,无监督和自学成才的学习将在未来占主导地位,所以不要将此视为一种宗教:)
有一些论文,但不及自动编码器或RBM。我认为原因是NN的时间表。堆叠式RBM和自动编码器分别于2006年和2007年推出。在2009年使用 ReLU之后,无监督学习被部分放弃(当有足够的数据可以在直接监督学习中学习时)。尽管卷积网(或LeNet)于1989年发明,但直到2012年才被训练为深度结构,而2012年是ReLU直接监督学习的普及之后。因此,我想研究人员主要是通过直接监督学习来训练它的。