如果Max Pooling只是要对图像进行降采样,为什么还要回旋呢?


14

应用滤镜做诸如识别边缘之类的想法的想法很酷。

例如,您可以拍摄一张7的图像。使用某些滤镜,最终可以得到强调原​​始图像不同特征的变换图像。原来的7:

在此处输入图片说明

网络可以体验为:

在此处输入图片说明

注意每个图像如何提取原始图像7的不同边缘。

一切都很好,但是然后说网络中的下一层是“最大池”层。

我的问题是,总的来说,这看起来有点像过大杀伤力吗?我们只是非常谨慎和谨慎地使用滤镜来识别边缘-现在,我们不再在乎这些,因为我们已经从像素值中剔除了一切!如果我错了,请纠正我,但是我们从25 X 25变为2 X 2!为什么不直接进入Max Pooling,我们最终不会得到基本相同的东西吗?

作为扩展,我的问题是,我不禁要问,如果巧合的是,这4个正方形中的每一个恰好都具有一个具有相同最大值的像素,将会发生什么情况。当然这不是罕见的情况,对吗?突然,您所有的训练图像看起来都完全一样。

Answers:


16

最大池化不会对图像进行下采样。它将对刚刚提取的特征(例如边缘)进行下采样。这意味着您可以更大致地了解这些边缘或其他特征的位置。通常,这正是网络进行泛化所需要的-为了进行分类,它不需要知道存在从10,5到10,20的垂直边缘,但是存在大约1/3的垂直边缘。左边缘约图像高度的2/3。

这些较粗糙的特征类别以很少的成本固有地覆盖了输入图像中的更多变化,并且减小特征图的大小也是一个不错的副作用,从而使网络速度更快。

为使此功能正常运行,您仍然需要提取功能以开始使用,而最大池化则不这样做,因此卷积层是必需的。您应该发现可以对原始图像进行下采样(至14x14),而不是使用第一个最大池化层,并且仍将获得相当合理的精度。构建深度神经网络时,还要进行多少池化以及在哪里添加这些层是另一个超参数问题。


6

由于convolution layer介于两者之间,因此我们无法直接从输入层转到最大池。卷积的原因是提取特征。最大合并将对已提取的特征进行下采样。如果您认为由于从大型矩阵直接跳转到最大池化层而缺少某些功能,则可以在两者之间添加更多的卷积层,直到您对尺寸满意为止,然后对其进行最大池化,以便并不过分。

最大池化是缩减采样的一种形式,用于标识最重要的功能。但是也可以使用平均池和其他各种技术。我通常使用文本而不是图像。对我来说,这些值通常并不完全相同。但是,如果它们也是,则不会有太大的区别,因为它只选择了最大的价值。

Wiki非常了解-The intuition is that once a feature has been found, its exact location isn't as important as its rough location relative to other features. The function of the pooling layer is to progressively reduce the spatial size of the representation to reduce the amount of parameters and computation in the network, and hence to also control overfitting. It is common to periodically insert a pooling layer in-between successive conv layers in a CNN architecture. The pooling operation provides a form of translation invariance.


你能解释一下最后一句话The pooling operation provides a form of translation invariance吗?
HelloWorld '09

@StudentT表示如果在图像中的任何位置检测到该功能,则最大池的输出将大致相同。移动正在激活功能的图像中的事物,最大池的不同输入将最大,但最大池的输出应相同。
mrmcgreg

@mrmcgreg我相信全局池而不是最大池是正确的。最大池化为池区域内的本地翻译提供了一种不变性(例如2x2)。这会在功能中产生一些抖动。
geometrikal

0

卷积基本上是使用较小的像素过滤器对图像进行过滤,以减小图像的尺寸,而不会丢失像素之间的关系(网络参数),池化也通过将像素的Max,Avg或Sum提取为该尺寸来减小空间尺寸。但是,在不明显减小尺寸的情况下,它可能会错过卷积重新实现的过程中的重要参数。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.