在深度卷积神经网络中进行预训练?


Answers:


39

我不确定这是否能准确回答您的问题,但是据我所知,您没有看到人们进行预训练(我的意思是无监督的预训练),这是因为在纯粹的监督训练中存在各种创新,已经使无监督的预训练变得不必要了(目前,谁知道未来会遇到什么问题和问题?)。

FX=最高0X

Glorot,Bordes和Bengio的文章将ReLU用于多层感知器而不是Conv Nets。上一篇文章,贾里特(Jarret)和Yann LeCun的纽约大学(NYU)小组的其他人介绍什么是最佳的多阶段对象识别体系结构,但使用了非线性校正功能,但对于S形单位,它们的激活函数形式为这两篇文章都指出,使用校正非线性似乎弥合了纯监督方法和无监督预训练方法之间的大部分差距。FX=|X|

另一个创新是我们为深度网络找到了更好的初始化方法。多年来,使用标准化网络各层差异的想法,已经建立了良好的经验法则。最早,最受欢迎的方法之一是Glorot和Bengio 了解深度前馈网络的训练难度,该方法提供了一种在线性激活假设下初始化深层网络的方法,随后又提供了深入研究Deep Into Rectifiers的方法。由一组Microsoft研究小组成员修改了Glorot和Bengio权重初始化以解决非线性校正问题。权重初始化对于极深的网络来说意义重大。对于30层的卷积网络,MSR权重初始化的性能要好于Glorot权重初始化。请记住,Glorot纸于2010年问世,MSR纸于2015年问世。

我不确定Alex Krizhevsky,Ilya Sutskever和Geoff Hinton 撰写的使用深度卷积神经网络进行ImageNet分类是否是最早ReLU用于卷积网络的论文,但它的影响最大。在本文中,我们看到卷积网络的ReLU加快了学习速度,这是由其CIFAR-10图之一所证明的,该图显示ReLU卷积网络可以比非ReLU卷积网络更快地实现更低的训练错误率。这些ReLU不会遭受消失的梯度/饱和S形问题的困扰,可用于训练更深的网。其他重大创新之一是使用Dropout训练,一种随机噪声注入或模型平均技术(取决于您的观点),它使我们可以训练更深,更大的神经网络,而又不会过度拟合。

转化技术的创新持续以惊人的速度进行,几乎所有使用ReLU(或Microsoft Research的PReLU的修改),Dropout和纯监督训练(SGD + Momentum)的方法,可能还有一些自适应学习率技术,例如RMSProp或ADAGrad )。

因此,到目前为止,许多性能最高的转换网似乎都是纯粹受监管的。这并不是说无监督的预培训或使用无监督的技术在将来可能并不重要。但是,仅使用监督训练,就可以对非常丰富的深度转换网络进行训练,在非常丰富的数据集上达到或超过人类水平的性能。实际上,我相信最新的Microsoft Research提交给ImageNet 2015竞赛的作品有150层。那不是错字。150。

如果您想对卷积网使用无监督的预培训,我认为您最好找到一项任务,其中“标准”的卷积网的有监督的培训效果不佳,然后尝试无监督的预培训。

与自然语言建模不同,似乎很难找到一个无监督的任务来帮助处理涉及图像数据的相应有监督的任务。但是,如果您足够了解互联网,就会看到一些深度学习的先驱(Yoshua Bengio,Yann LeCun等)谈论他们认为无监督学习的重要性和重要性。


1
我在斯坦福大学关于ConvNet的教程中看到,卷积神经网络已经进行了预训练。这是链接:cs231n.github.io/transfer-learning这些不同吗?既然他们实际上在做同样的事情对吗?
丽卡

2
嘿,对不起您的回复,我们感到抱歉。转移学习已经完成了很多。它用于避免从头开始训练的繁琐任务,而是使用在像ImageNet这样的大型数据集上训练的特征,而我们只在这些特征之上训练分类器。我已经更新了答案,以指定这些天您不会看到很多无监督的预培训,这与转学不一样。谢谢你的意见。
独立AI

+1。很好的答案。我所缺少的是,您在说什么(即不需要进行预训练)是专门适用于卷积神经网络(如果这样,为什么?)还是适用于任何深度网络(包括非神经网络),都需要进行一些讨论或评论。卷积的。
变形虫说恢复莫妮卡的

14

从以上答案可以理解,当发生多件事时,预训练是“过时的”。但是,我确实想提炼一下我的理解:

  1. 很久以前,在2010年,每个人都关心预培训。这是一篇关于我没有提到的主题的论文
  2. 在Alex Krizhevsky,Ilya Sutskever和Geoff Hinton发表他们的imagenet论文之前不久,人们仍然认为功能很重要,但主要侧重于无监督学习甚至自学学习以制造这些功能。
  3. 不难看出为什么-当时的神经网络构建模块不那么健壮,并且非常缓慢地收敛到有用的功能。很多时候他们甚至失败了。如果您有足够的数据,可以对SGD进行良好的初始化,那么预培训会很有用。
  4. 提出relu时,网络融合速度更快。当提出泄漏的relu和更新的解决方案时,神经网络在收敛到可行结果时变得更加强大。我强烈建议您使用这个有才华的googler编写出色的神经网络演示,您将了解我在说什么。
  5. 到达我们的主要观点,并不是说某种形式的预培训在深度学习中并不重要。如果您想获得最新的结果,则必须对数据进行预处理(例如ZCA)并正确选择初始权重- 这是关于此主题的很好的论文

因此,您可以看到,预训练从形式上变为了预处理和权重初始化,但仍保留在功能中,并且变得更加优雅。

最后,机器学习非常流行。我个人打赌像吴安德(Andrew Ng)一样,无监督和自学成才的学习将在未来占主导地位,所以不要将此视为一种宗教:)


13

有一些论文,但不及自动编码器或RBM。我认为原因是NN的时间表。堆叠式RBM和自动编码器分别于2006年2007年推出。在2009年使用 ReLU之后,无监督学习被部分放弃(当有足够的数据可以在直接监督学习中学习时)。尽管卷积网(或LeNet)于1989年发明,但直到2012年才被训练为深度结构,而2012年是ReLU直接监督学习的普及之后。因此,我想研究人员主要是通过直接监督学习来训练它的。


因此,您同意深度卷积神经网络中尚无预训练吗?
RockTheStar

4
@RockTheStar不,没有但比前两个少。research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf此研究已使用它。这是一个简短的报价;“我们观察到,除了TIMIT上的CNN不能进行预训练之外,预训练可以改善DNN和CNN。总的来说,对CNN使用预训练的相对改进要比DNN少。”
yasin.yazici 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.