在实践中应用深度学习的瓶颈


9

在阅读了很多深度学习论文之后,一种粗略的感觉是,在训练网络以获得比正常情况更好的性能方面存在很多技巧。从行业应用的角度来看,很难开发这种技巧,除了那些大型科技公司中的精英研究小组,例如google或facebook。那么在实践中应用深度学习算法的最佳方法是什么。任何想法和建议将不胜感激。

Answers:


9

的确,一些用于提高性能的细节被认为是窍门,您将永远不会知道这些窍门是否会对您的数据和网络产生相同的改善。

您肯定需要做一些事情:

  • 数据,很多
  • GPU使您可以更快地运行实验,并在较短的时间内尝试更多的事情。
  • 学习曲线分析。最后,它取决于测试集的性能,但是通过查看训练指标和测试指标,您可以找出性能不佳的原因。强烈偏见?来自太多隐藏节点的过拟合?
  • 激活功能。我认为知道您需要哪种激活功能并不是一个技巧。ReLU具有关键特性,因为它们不会像S型和tanh那样饱和。具有ReLU的神经元将更长地具有类似概率的输出,但是无论如何,对于中层的神经元您都不需要这样做。您获得的优势是减轻了梯度的消失或爆炸并加快了收敛速度。
  • 正则化。可能会作为技巧,但如果您使用任何主流的深度学习库,则可以通过辍学获得现成的实现正则化的实现。
  • 数据扩充。基本上,您正在综合扩展数据集,而无需增加手动注释的成本。关键是通过实际有意义的转换来扩充数据。这样,网络就可以查看在测试阶段或将其部署到产品中时可能遇到的数据变体。对于可视数据,它的水平翻转是微不足道的,并增加了很多增益。抖动可能取决于数据类型及其噪声。
  • 进入超参数探索可能会令人沮丧。从小型网络和简单的培训过程开始。较小的网络训练起来更快。当您发现过度拟合的迹象时,请添加更多层。
  • 良好的初始化。随机初始化适合于衡量网络的收敛能力,但不一定会带来最佳性能。同时,仅保持迭代可能会导致网络过度适合训练数据。如果可能,请使用已经学习了表示形式的预训练网络,并将其微调到您的数据集。无监督的预训练是另一种可行的方法,它可以使有监督的训练过程从体重空间中更有希望的位置开始。
  • 仔细检查技巧。了解窍门的真正作用。一篇描述用于改善网络性能的小细节的论文将集中在这一新方面。该论文可能是作者一直在从事的一系列项目的一部分。技巧的上下文可能并不总是马上就清楚了,但对于作者来说,这不是技巧,而是一种解决他们所遇到问题的技术。有时,一种技术应运而生,被当作一种技巧,后来有人将分析其影响并描述其功能。例如,该技巧等同于更多人熟悉的L2正则化。我们可以决定是否应该尝试这种新技术,还是坚持我们已经知道的L2正则化。这些技巧很多都试图解决深度学习中的问题,例如过度拟合的风险,昂贵的计算,过度的参数化和高度冗余的权重。值得花时间了解这些技巧的真正作用。通过了解他们试图解决的问题,我们可以判断各种技巧的适用性,并选择对我们可能具有的约束条件有效的方法(例如,很少的计算能力,小的数据集)

2

这是一本有趣的书,《神经网络:交易技巧》,该书的2012年更新版。神经网络的一些开拓者发表了许多文章。

ypx通过培训很好地涉及了许多实际问题,因此要谈谈您提出的其他问题:许多精英工业实验室仍在发布其结果。比如微软研究院的团队刚刚获得2015年ImageNet,他们发布了描述他们的新的深网模块的技术报告:深入学习残留图像识别,谷歌的团队公布了他们的盗梦空间结构为好,要和卷积更深。到目前为止,机器学习中仍然存在共享重大创新的文化。可能是因为关键是访问数据。Google和Facebook只能访问我们没有的数据。很难说原始算法创新有多少功劳,海量数据有多少功劳。

关于将来会发生什么?很难说。鉴于这些数据驱动型公司变得多么有价值,以及市场竞争力如何,很多人提出了这个问题。但就目前而言,我认为工业研究实验室共享和不共享的内容之间已经有了足够的平衡。我了解他们没有共享确切的代码实现。但是他们确实分享了一些非常新颖的创新。

寻找发表重要成果并阅读,阅读,阅读的研究人员。我相信在Yand LeCun在Reddit上发表的AMA中,他提到他是一位贪婪的读者。我相信这是最重要的。在可行的范围内,尝试重新创建其基准,或将其方法应用于预算范围内的数据集。

我认为无论您身在何处或生活中处于何种地位,这都是保持敏锐并继续发展技能的最佳方法。做一个贪婪的读者,执行事情并建立直觉。我个人没有资源参加ImageNet竞赛,但是阅读ImageNet组中表现最好的所有文章对我有很大帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.