深度学习中出现正方形图像的原因

大多数高级深度学习模型（例如VGG，ResNet等）都需要正方形图像作为输入，通常像素大小为 $224x224$ 。

输入的形状必须相等是有原因的，还是可以建立一个 $100x200$ 的convnet模型（例如，如果要进行面部识别并且有人像图像）？

更大的像素尺寸（例如 $512x512$ 是否会增加收益？

deep-learning image-classification image-recognition

— 孢子234
source

卷积神经网络不需要特定的像素尺寸即可正常运行。选择这些值可能是出于务实的原因-例如在使用图像细节与参数数量和所需训练集大小之间的折衷。

此外，如果源数据具有一系列不同的纵横比，一些肖像，一些风景，并且目标对象通常在中心，那么从中间采取方形作物可能是一个合理的折衷方案。

当您增加输入图像的大小时，还将增加网络处理该输入所需的噪声和差异量。这可能意味着更多的层次-卷积和池化。这也可能意味着您需要更多的培训示例，当然每个培训示例都会更大。这些共同增加了完成培训所需的计算资源。但是，如果您可以克服此要求，那么对于多余像素可能会有所作为的任何任务，最终可能会得到更准确的模型。

关于是否需要更高分辨率的一个可能的经验法则是，为了您的网络目标，人类专家可以利用额外的分辨率来更好地完成任务。在回归系统中可能就是这种情况，在回归系统中，网络正在从图像中导出一些数值，例如用于面部识别提取生物特征（例如面部特征之间的距离）。对于图像处理任务（例如自动遮罩）可能也很理想-这些任务的最新技术结果可能仍然比我们希望在实践中应用的商业图像更低的分辨率。

— 尼尔·斯莱特
source