选择卷积神经网络超参数的规则


22

是否有任何好的论文涵盖一些有条理的方法来选择过滤器的尺寸,合并单元并确定卷积层的数量?


1
我编辑了你的标题。最好使用全名,而不要使用缩写,因为在许多情况下,短名称是模棱两可的。
蒂姆

Answers:


11

在某种程度上,是的,谷歌研究人员最近发表了一篇关于如何选择好的Inception架构的论文。初始网络在有限的参数预算下可实现非常高的性能,因此,这是一个很好的起点,而且是最近的。这是链接:重新思考计算机视觉的初始架构

他们没有提供任何严格的量化规则,而是提供了他们曾经使用并认为已帮助他们在最近的ImageNet竞赛中取得良好表现的准则。

例如,他们讨论的一些原则是:

  • 使用较小的接收场卷积层的堆栈,而不是使用单个较大的接收场卷积层,即2个3x3转换层与单个7x7转换层的堆栈。牛津VGG团队在“细节中的魔鬼归来:深入研究卷积网络”中对此想法进行了讨论,这并不是什么新鲜事。这是由于需要提高参数效率而引起的。当我们引入更多层的非线性时,它还具有更大的表示能力的双重影响。

  • 我在文献中没有看到这篇文章提到的东西,就是将卷积层分解为更深的层。因此,我们将拥有一个1x7的conv层,然后是一个7x1的conv层,而不是只有一个7x7的conv层。增加了更多的深度,我相信它也同样有效。

  • 平衡网的深度和宽度。使用高维表示。这是其Inception模块背后的原理之一,该模块将多个卷积层连接在一起。因此,即使您的卷积空间很小,使用Inception模块,我们也可以通过多尺度卷积级联使用高维表示:1x1、3x3、3x3-3x3,最大池放在一起。这些Inception模块具有“宽度”,因为它们可以解释为并行执行多个操作。它们与新的Inception模块一起走得更远,这些模块具有分解的卷积大小(1x3、3x1等)。

  • 使用1x1转换层(网络样式的网络)以减少尺寸。他们使用许多降维技术来实现参数效率。他们认为这是有效的,因为相邻的特征图具有高度相关的输出。这是有道理的,因为已知自然图像会显示出与此一致的局部统计属性。因此,通过1x1 NIN层降低尺寸不会对表示能力产生灾难性影响。

文章中还有更多内容。我认为这是一篇文章,可以为您提出的问题提供一些见解。他们正在谈论卷积网络建筑设计的一些非常核心的概念。


2

我还没有任何关于根据问题规范选择这些超参数的文献。但是,据我了解,大多数人都在采用贝叶斯优化方法将有效值归零。您指定一个合理的范围,然后通过测试各种组合,您将学习一个模型,了解这些超参数如何与模型的准确性相关。对我来说效果很好。请查看Snoek,Larochelle和Adams的“机器学习算法的实用贝叶斯优化”(http://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.