Answers:
作为您提出的所有问题的介绍性文本,我将推荐深度学习书。它提供了该领域的广泛概述。它解释了这些参数各自发挥的作用。
我认为阅读一些最流行的体系结构(resnet,inception,alex-net)并提取导致设计决策的关键思想非常有帮助。看完上述书后。
在您参考的课程提纲中,将对卷积层如何添加大量参数(权重,偏差)和神经元进行详细说明。一旦经过训练,该层就可以从图像中提取含义模式。对于较低的层,这些滤镜看起来像边缘提取器。对于较高的层,将这些原始形状组合起来以描述更复杂的形式。这些过滤器涉及大量参数,这是深度网络设计中的一个大问题,即如何能够描述复杂的形式并且仍然能够减少参数的数量。
由于相邻像素之间具有很强的相关性(特别是在最低层),因此通过对滤波器响应进行二次采样(合并)来减小输出大小是有意义的。两个像素彼此之间的距离越远,相关性越小。因此,汇聚层中的大步前进会导致较高的信息丢失。松散地说。池化步长为2,内核大小为2x2是常见选择。
一种更复杂的方法是Inception网络(通过卷积进行更深入的研究),其思想是通过交换卷积层中的参数数量与用于更深层网络的Inception 模块的交易来增加稀疏性,但仍然能够实现更高的准确性。
SqueezeNet是一篇不错的论文,它以结构化,系统的方式提供了有关当前体系结构和某些设计维度的作用的提示:SqueezeNet:AlexNet级别的精度,参数减少了50倍,模型尺寸小于0.5MB。它建立在前面提到的模型中引入的思想的基础上。
如果您考虑在学习过程中更好地学习,我想建议这些内核大小和步幅;
关于滤镜大小,我认为这取决于您的图像特性。例如,网络识别对象需要大量像素,可以使用较大的滤镜,另一方面,如果对象较小或具有局部特征,则可以考虑相对于输入图像大小应用较小的滤镜。
对于步幅大小,对我而言,小步幅会更好地捕获输入图像的精细细节。
对我来说,合并的好处是它可以提取图像的最清晰特征。通常,最清晰的功能看起来像图像的最佳低层表示。