卷积神经网络：输出中的中枢神经元难道不是代表过多的吗？

[这个问题也在堆栈溢出时提出]

简短的问题

我正在研究卷积神经网络，我相信这些网络不会等效地对待每个输入神经元（像素/参数）。假设我们有一个深层网络（许多层），对某些输入图像进行卷积。图像“中间”的神经元具有通往许多深层神经元的许多独特途径，这意味着中间神经元的微小变化会对输出产生强烈影响。但是，图像边缘的神经元只有途径（或取决于确切的实现方式，为阶），这些途径中的信息会流过该图。看来这些“代表性不足”。 $1$ $1$

我对此感到担忧，因为对边缘神经元的辨别与网络的深度（层数）成指数关系。即使添加最大池化层也不会阻止指数增长，只有完整的连接才能使所有神经元处于平等的地位。但是，我不相信我的推理是正确的，因此我的问题是：

我对吗，这种影响发生在深度卷积网络中吗？
有没有关于这一点的理论，文献中是否曾提及过？
有办法克服这种影响吗？

因为我不确定是否可以提供足够的信息，所以我将详细说明问题说明以及为什么我认为这是一个问题。

更详细的解释

想象一下，我们有一个将图像作为输入的深度神经网络。假设我们在图像上应用了一个像素的卷积滤波器，每次我们将卷积窗口都移动像素。这意味着输入中的每个神经元都会将其激活发送给第层中的神经元。这些神经元中的每一个都可能将其激活发送给另一个，这样，我们的最高神经元就可以在输出神经元中表示，依此类推。 $64\times 64$ $4$ $16 \times 16 = 265$ $2$ $265$ $265^2$

$1$

$3$

https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0

为什么这是个问题？

乍看之下，这种影响似乎并不是问题：原则上，权重应该以网络能够正常工作的方式自动调整。而且，在图像识别中，图像的边缘并不是那么重要。在日常的图像识别测试中，这种效果可能并不明显，但是由于两个原因，它仍然使我感到担忧：1.推广到其他应用程序；以及 2.在非常深的网络中出现的问题。

1.可能还有其他应用程序，例如语音或声音识别，其中最中间的神经元并不是最重要的。在这个领域中通常会应用卷积，但是我找不到任何提及我所关注的效果的论文。

$10$ $265^{10}$

现在想象一下，我们会少量扰动所有神经元。与边缘神经元相比，中枢神经元将导致输出变化更大幅度几个数量级。我相信对于一般应用程序和非常深的网络，应该找到解决问题的方法吗？

machine-learning neural-networks convolution

— 高恩
source

我无法完全回答您的问题，但是我找到了这篇论文：cs.utoronto.ca/~kriz/conv-cifar10-aug2010.pdf 解决了您的问题。他们讨论了不同的解决方案：1）用零填充输入的边缘，2）添加随机全局连接的组件，或3）固定并向前传播边缘，因此不会丢失边缘信息。我最近对相同的问题感到好奇，并找到了您的问题。我仍在仔细研究那篇论文的细节。希望能帮助到你。

— nfmcclure 2015年

谢谢，这正是我想要的！令人印象深刻的是只有2层就很明显。对于那些TL; DR'ing整个论文：发现结合使用1）（零填充）和2）（随机全局连接）是最好的解决方法。

— 科恩2015年

相关：area51.stackexchange.com/proposals/93481/…–

— kenorb

我很好奇，使用非重叠偏移量还不够吗？因此，在您的示例中，您具有64x64色块，并且在应用卷积时每次将输入移动64像素。（您的“班次”是我的“抵消”）。我猜这与执行零填充相同吗？

— 伦塔尔（Renthal）2016年

抱歉，暂时没有响应，我不再从事NN工作。但是，我想我可以回答这些问题，尽管我意识到我的更大目标是更好地了解正在发生的事情（但现在仍然没有）。1）这种效果似乎确实发生了。2）上面链接的论文对此进行了描述，并且3）还探索了克服它的方法。致伦塔尔：不重叠的补丁（选择偏移量=转换大小）确实可以解决我的问题，但是人们经常发现重叠的补丁可以更好地工作。对于EngrStudent，对不起，我对Bootstrap重采样不熟悉。

— 科恩（Koen）

在分层模型中期望稀疏表示。可能是，您发现的是深度学习模型的层次结构固有的问题。您会发现很多有关“稀疏表示”的科学论文，尤其是在内存研究中。

我认为您将从阅读视觉皮层中的“受体域”中受益。不仅在哺乳动物的大脑中存在ON和OFF细胞，而且在ON和OFF期间都会发射RF细胞。通过更新模型以反映视觉上的当前神经科学，尤其是在动物模型中，也许可以解决边缘/稀疏性问题。

— 本体的
source

没错，如果卷积仅对图像像素起作用，那么这是一个问题，但是如果对图像进行零填充（通常建议这样做），该问题就会消失。这确保了卷积将对每个像素应用相同次数的滤镜。

— 乔恩·西蒙
source

我还没有说服。零填充只会在没有填充的情况下在“中心”像素周围创建更多输出像素。无论使用哪种零填充，“中心”像素的值都完全相同。

— 科恩

n \times n

$n \times n$

n - 1

$n-1$

本页中间的卷积可视化可能有助于传达直觉：cs231n.github.io/convolutional-networks

— jon_simon