图像格式(png,jpg,gif)是否会影响图像识别神经网络的训练方式?


22

我知道,利用深层卷积神经网络在图像识别,图像分类等方面已经取得了许多进步。

但是,如果我在PNG图像上训练网络,那么它仅适用于如此编码的图像吗?还有哪些其他图像属性会影响此效果?(alpha通道,隔行扫描,分辨率等?)


2
我没有足够的图像统计经验来给出可靠的答案,但是我希望不同的模型使用完全不同的方案将图像编码为特征,其中一些会受到有损JPEG压缩,alpha通道等的影响。 。,而有些则不会,细节是特定于模型的。我知道,既存在将每个像素视为特征的模型,又存在将图像分割成区域并使用区域属性作为特征的模型。
Kodiologist

Answers:


20

简短的回答是“ 否”

图像编码的格式与其质量有关。神经网络本质上是执行大量操作(矩阵乘法,逐元素加法和映射函数)的数学模型。神经网络将张量视为输入(即多维数组)。它的形状通常为4-D(每批图像数,图像高度,图像宽度,通道数)。

不同的图像格式(尤其是有损的图像格式)可能会产生不同的输入数组,但严格来说,神经网络会在其输入中看到数组,而不是图像。


4

虽然Djib2011的答案是正确的,但我理解您的问题更侧重于图像质量/属性如何总体上影响神经网络学习。该主题(afaik)的研究很少,但将来可能会进行更多的研究。我只在上面找到这篇文章。目前的问题是,这更多是在实际应用中出现的问题,而在学术研究领域则较少。我记得当前的播客中,研究人员观察到,即使是用来拍照的相机也可能产生很大的影响。


你能指点我播客吗?
大卫·恩斯特

这是“会说话的机器”,他们有一个研究员练机器学习在非洲(约中旬到月底)的iTunes链接讨论的一个小时的插曲:itunes.apple.com/de/podcast/talking-machines/...
Bobipuegi

2

这是Djib2011的第一个答案的即兴之处。简短的答案必须为否。更长-首先,始终将照片编码为张量,如下所示。图像是许多像素。如果照片被认为具有m行和n列,则每个像素都由其行和列位置(即对(m,n))指定。特别是有m * n个像素,即使是“小”照片也很大。如果照片是黑白的,则照片的每个像素都用介于0和1之间的数字(黑度强度)进行编码。如果照片是彩色的,则由三个数字(RGB强度)编码。因此,最后一个张量为1xmxn或3xmxn。图像识别是通过CNN进行的,该过程利用照片在像素之间变化不大的事实进行压缩通过过滤器和池化数据。因此,关键是CNN的工作是通过将照片的大量数据点(或特征)压缩为较少数量的值来完成的。因此,无论您以哪种格式开始,CNN都会通过进一步压缩照片数据而开始。因此,其本身与照片表示的大小无关。
但是,CNN会要求通过它的所有图像都具有相同的大小。因此,依赖关系会根据图像的保存方式而改变。此外,在相同大小的不同文件格式为其张量产生不同值的程度上,人们不能使用相同的CNN模型来标识通过不同方法存储的照片。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.