堆叠卷积自动编码器的体系结构是什么?
因此,我正在尝试使用卷积网络对人的图像进行预训练。我阅读了论文(Paper1和Paper2)以及这个stackoverflow链接,但是我不确定我是否了解网络的结构(在论文中没有很好地定义)。 问题: 我可以让我的输入,然后是噪波层,接着是conv层,再是池化层-之后-在提供输出之前是否要进行解池(与输入图像相同)? 假设我有几张(135,240)张图片。如果使用32(12,21)个内核,然后使用(2,2)池化,则最终将得到32(62,110)个特征图。现在,我是否要分解以获取32(124、220)个特征图,然后对其进行展平?给我的(135,240)输出层之前? 如果我有多个这样的转换池层,是否应该一一训练它们-就像在堆叠的去噪自动编码器中一样?或者-我可以有类似input-conv-pool-conv-pool-conv-pool-output(输出与输入相同)的东西吗?在那种情况下,应该如何管理池化,池化?我是否应该仅在输出之前的最后一个池层中解池?再说一遍,该分池的调整大小因素应该是什么?是否打算将要素图恢复为输入的形状? 我应该在每个conv-pool-depool层之后引入噪声层吗? 然后在进行微调时-我是否应该只删除去池层,其余的保持不变。还是应该同时删除噪声层和去池化层 谁能指出我的网址/论文,其中详细介绍了这种堆叠式卷积自动编码器的架构,可以对图像进行预训练?