Answers:
由于计算方面的考虑,瓶颈架构用于非常深的网络中。
要回答您的问题:
上图中未显示56x56特征图。该块来自输入大小为224x224的ResNet。56x56是在某些中间层的输入的降采样版本。
64-d表示要素图(过滤器)的数量。瓶颈架构具有256-d分辨率,这仅仅是因为它意味着更深的网络,该网络可能需要更高分辨率的图像作为输入,因此需要更多的特征图。
有关ResNet 50中每个瓶颈层的参数,请参考此图。
我真的认为,纽斯坦的答案的第二点令人误解。
的64-d
或256-d
应该参考信道的数目的的输入特征地图 -不输入要素的数量映射。
以OP问题中的“瓶颈”块(图的右侧)为例:
256-d
表示我们只有一个输入维度为的输入要素地图n x n x 256
。的1x1, 64
图中的装置 64
的过滤器,每个是1x1
和具有256
通道(1x1x256
)。1x1x256
)与输入特征图(n x n x 256
)的卷积为我们提供了n x n
输出。64
过滤器,因此,通过堆叠输出,输出特征图尺寸为n x n x 64
。编辑: