深度学习会杀死图像处理/计算机视觉吗？

52

我期待注册信号和图像处理的硕士学位，或者计算机视觉（我尚未决定），这个问题浮出水面。

我担心的是，由于深度学习不需要特征提取并且几乎不需要输入预处理，是否会破坏图像处理（或一般来说是信号处理）？

我不是深度学习专家，但是它在直接拍摄图像而不是像其他技术一样使用特征向量的识别和分类任务中似乎效果很好。

是否存在使用图像处理技术的传统特征提取+分类方法会更好的情况，还是因为深度学习而垂死？

— 托尼
source

3

重新打开此选项是因为它具有很高的赞成票数，并且票数最高的答案具有很高的赞成票数。

— 彼得·克

1

@LaurentDuval我认为每个答案都很有帮助，也很有趣，但主要是您和与线程有关的人（以及随后进行的讨论）确实阐明了这个话题。

— 托尼

2

我想在正在进行的讨论中取得一个十字路口。谁说深度学习不需要特征提取？以我自己的实际经验，我们不应该为原始数据训练DNN。我们必须进行一些特征提取，还必须对图像有一些基本的了解。深度学习应谨慎使用，但这也是一个好主意。

— 阿伦raj

45

这篇文章已经更新了很多。在顶部，您可以看到链接更新。下面是初始答案的变体。对于简短版本：卷积神经网络和深度学习的成功看起来像是伽利略革命。从实用的角度来看，经典的信号处理或计算机视觉已经死了……只要您拥有足够的标记数据，很少关注明显的分类失败（深层缺陷），并且有无限的精力进行测试而无需考虑碳足迹，也不要理会理性的解释。对于其他人，这使我们重新考虑了以前所做的一切：特征提取，优化（请参阅我的同事J.-C. Pesquet关于解决变分不等式的深度神经网络结构的工作）），不变性，量化等。随之而来的是真正有趣的研究，希望能够追上扎根的原则和类似的性能。

更新的链接：

2019/07/19：边缘：如果您能识别出这些图像中的内容，则说明您比AI聪明，或者您看到沉船残骸或枯叶上的昆虫？
2019/07/16：预印本：自然对抗的例子

我们介绍了自然的对抗性示例-真实世界，未经修改的示例和自然发生的示例，这些示例会使分类器的准确性大大降低。我们整理了7,500个自然对抗性示例，并将它们发布在我们称为ImageNet-A的ImageNet分类器测试集中。该数据集用作衡量分类器鲁棒性的新方法。像l_p对抗示例一样，ImageNet-A示例成功转移到了看不见的分类器或黑匣子分类器。例如，在ImageNet-A上，DenseNet-121的准确度约为2％，准确度下降约90％。要恢复这种准确性并不容易，因为ImageNet-A示例利用了当前分类器中的深层缺陷，包括对颜色，纹理和背景提示的过度依赖。我们观察到，用于提高鲁棒性的流行训练技术几乎没有效果，但是我们表明，某些架构上的更改可以增强自然对抗示例的鲁棒性。需要进行进一步的研究才能对这种ImageNet测试集进行可靠的概括。

2019/05/03：深度学习：信号处理和时间序列分析的最终前沿吗？“在本文中，我想展示信号或时间序列至关重要的几个领域”
2018/04/23：我刚参加了ICASSP 2018年度国际声学，语音和信号处理国际会议。令我惊讶的是，论文的数量多少有点依赖于深度学习，深度网络等。四分之二的研究人员（由Alex Acero和Yann LeCun撰写）专门针对这一主题。同时，我遇到的大多数研究人员都在开玩笑（“对不起，我的海报在过滤器库上，而不是在深度学习上”，“我不喜欢它，我有小的数据集”），或想知道在挑战中获得0.5％的收益，而失去对物理或统计先验建模的兴趣。
2018/01/14：深网可以看到猫吗？，从“抽象猫”到倒转，绘制等“最佳猫”，以及草图上令人惊讶的结果
2017/11/02：添加了对散射变换/网络的引用
2017/10/21：卷积神经网络在成像逆问题中的应用
深度学习及其在信号和信息处理中的应用，IEEE信号处理杂志，2011年1月

可以在底部找到有关标准信号/图像处理的深度学习参考“步进”。迈克尔·埃拉德（Michael Elad）刚刚写了《深度问题：深度学习对图像处理，数学和人文的影响》（SIAM新闻，2017/05），摘录：

然后，神经网络突然复出并复仇。

这个论坛很有趣，因为它显示了从传统的“图像处理”（试图对数据进行建模/理解）到正确的境界的转变，而没有太多的洞察力。

这个领域正在迅速发展。这并不意味着它会朝着某些有意或恒定的方向发展。对与错。但是今天早上，我听到以下话（或者是在开玩笑吗？）：

具有大量数据的不良算法比具有停顿数据的智能算法要好。

这是我很短的尝试：深度学习可能会提供最先进的结果，但是人们并不总是能理解为什么，而我们科学家工作的一部分仍然是在解释事物为什么起作用，数据的内容是什么。等

深度学习需要（巨大）标签齐全的数据库。任何时候您对单个或单个图像进行手工处理（即没有庞大的数据库），尤其是在不太可能产生“基于用户的免费标签图像”的地方（在一组“ 逗猫玩游戏和面孔 ” 的补充集中），您可以坚持传统的图像处理一段时间，以获取利润。最近的一条推文总结说：

（很多）带标签的数据（没有丢失的vars）对于许多域来说是一个破坏交易的事情（＆不必要）

如果他们被杀死了（我会在短期内怀疑），他们还没有死。因此，您在信号处理，图像分析和计算机视觉方面获得的任何技能都将在将来为您提供帮助。例如，在博客文章中对此进行了讨论：我们是否已经忘记了计算机视觉中的几何？Alex Kendall撰写：

深度学习彻底改变了计算机视觉。如今，性能最佳的解决方案不基于端到端深度学习模型的问题不多。尤其是卷积神经网络很受欢迎，因为它们往往开箱即用。但是，这些模型基本上都是大黑匣子。我们对它们有很多不了解的地方。

下面是一个具体的示例：来自同一位置的几张非常暗（例如，监视）图像需要评估其中一个是否包含应检测到的特定变化，这可能是传统图像处理的问题，而不仅仅是深度学习（截至今天）。

另一方面，与深度学习一样，大规模成功也可能导致一小部分数据分类错误，这对于某些应用程序“平均而言”可能是无害的。可以通过DL对人眼略有不同的两个图像进行不同的分类。或者可以将随机图像设置为特定类别。举例来说，例如，深度神经网络很容易被愚弄：无法识别图像的高置信度预测（Nguyen A，Yosinski J，Clune J. Proc。Computer Vision and Pattern Recognition 2015），还是深度学习是否存在深层缺陷？，在对抗性底片上：

在研究人员施加了某种不可察觉的扰动之后，网络可能会将图像分类错误。通过调整像素值以最大化预测误差来找到扰动。

在充分考虑“深度学习”的情况下，考虑“批量生产响应已注册的，已知的，可大规模验证的或预期的行为”与“单一工艺”。在单一指标范围内，没有一个更好（但现在）。两者可能必须共存一段时间。

但是，深度学习遍及许多新颖领域，如以下参考文献所述。

深度学习进行图像压缩
- 实时自适应图像压缩，ICML 2017
- 递归神经网络的全分辨率图像压缩
- 端到端优化图像压缩，ICRL 2017
深度学习视频压缩
- 深度学习可以应用于视频压缩吗？
深度学习用于降噪，恢复，去除伪像
- CAS-CNN：用于图像压缩伪像抑制的深度卷积神经网络
- 具有深度卷积足够统计量的超分辨率

幸运的是，有些人正在尝试寻找深度学习背后的数学原理，其中一个例子是散射网络或StéphaneMallat及其合作者提出的转换，请参见ENS网站。谐波分析和非线性算子，Lipschitz函数，平移/旋转不变性，对于一般信号处理人员来说更好。例如，请参阅了解深度卷积网络。

— 劳伦·杜瓦尔（Laurent Duval）
source

1

使用适当修改的副本来补充不足的训练数据有助于深度学习的泛化。近来，已经找到了需要完整监督标记的方法：在半监督学习中，无监督数据扩充会自动为训练数据的未标记部分生成标签，并将其用于训练。（随时将这个或类似信息包含在答案中。）

— Olli Niemitalo

1

如果您知道如何“一致地”增加。在经典数据集上还可以，但仍在我处理的科学数据（地质，化学）上走动

— Laurent Duval

21

首先，在图像处理或计算机视觉领域进行毕业研究并使用深度学习没有错。深度学习并没有杀死图像处理和计算机视觉，它只是这些领域中的当前热门研究主题。

其次，深度学习主要用于对象类别识别。但这只是计算机视觉的许多领域之一。还有其他领域，例如对象检测，跟踪，3D重建等，其中许多领域仍然依赖于“手工制作”的功能。

— 迪玛
source

5

注意：DNN非常有能力执行您提到的所有任务：对象检测，跟踪，3D重建等。也就是说，信号处理是对信号如何被操纵的物理方面的深刻见解，以及为什么我们应该这样做以某种方式操纵它们-并且（我相信）那些将重新解释为什么像DNN 这样的自适应算法起作用。但是请不要误会-DNN非常有能力进行从输入到所有目标目标（可微分）的基础转换。

— Tarin Ziyaee

11

没有深度学习不会杀死图像处理。您需要庞大的数据集和大量计算资源才能进行深度学习。有许多应用程序希望能够以较少的计算量和较小的内存占用空间进行图像处理，而又无需访问大型数据库。一些示例是手机，平板电脑，移动相机，汽车，四轴飞行器。如今，由于存在一些非常令人印象深刻的分类结果，因此深度学习备受关注。

分类是图像处理所处理的众多问题中的一个，因此即使确实深度学习可以解决所有分类问题，也需要处理许多其他类型的图像处理。降噪，图像配准，运动计算，变形/融合，锐化，光学校正和变换，计算几何形状，3D估计，3D +时间运动模型，立体视觉，数据压缩和编码，分割，去模糊，运动稳定，计算机图形学，各种渲染。

— 恶棍
source

去噪，3D估计等，您所提到的所有内容都可以通过具有适当体系结构和适当数据的DNN进行近似和求解。

— Tarin Ziyaee

1

是的，您可以每周在捷豹（Jaguar）购物（但这不是它们的制造原因）。

— mathreadler's

1

呵呵，是的-但这与说您不能使用美洲虎购物是不同的。

— Tarin Ziyaee

对于DNN难以解决的工程问题，容易施加有用的约束。例如，约束条件是所使用的方法不应偏向特定的一组输入数据。然后，DNN当然会默认取消资格，因为它们都需要培训，因此会因使用培训数据而产生偏差。

— mathreadler's

任何工程工具都是如此：但这不是重点。关键是，您上面提到的所有这些任务实际上都可以用DNN 很好地解决。是的，有些是最近的事态发展，但它是错误，导致说，他们不能与DNNs来解决！就这样！

— Tarin Ziyaee

11

今天我们和我的一个朋友进行了讨论。慕尼黑今天是一个下雨天，而欧洲大部分地区都充满阳光。人们在社交媒体上分享照片，当时他们穿着漂亮的夏装，在海洋中游荡。她对这种情况感到恼火，转过头问我：“您能编写一种软件在社交媒体上屏蔽这些图片吗？这些媒体包含夏天如此可爱的照片，而此时的天气却很糟糕？” 我说，为什么不呢。您需要做的就是收集大量夏季图像和负面示例，并通过网络进行馈送，该网络在“阻止”或“无阻止”级别上进行二进制分类。训练和调整网络。而已。

然后，我转身对自己说：我真的知道如何编写一种简单的算法来确定天气是否好，而又不让机器为我思考吗？勉强......也许......对于好奇的读者，这里就是你可能要设计，如果你会尝试去为它的一些特点：

二级天气分类，CewuLu§Di Lin，贾佳亚，唐志强，CVPR 2014

显然，如今我什至都不在乎这份CVPR出版物，而只是深入探讨。因此，尽管我喜欢深度学习在许多情况下的强大性能，但我也谨慎使用它。即使它不会杀死我对图像处理的知识，它也会减少我所需的领域专业知识。从理智上讲，这不是很优雅。

一旦个人决定让自己走上正轨并从两个世界受益，他将处于安全的一面。

— 托尔加·伯达勒（Tolga Birdal）
source

6

简短的答案是，不是。DL可以识别照片中的杯子，但这无论如何也不会终止信号处理。就是说，在这些困难的日子里，您的问题非常重要。有关于这个问题的一个很好的小组讨论，具有斯特凡纳·马拉等，在这里。

— 多马托布
source

5

数据工程仍在机器学习中用于预处理和选择馈送到DNN的数据，以改善其学习时间和评估效率。仍然需要作为数据工程形式的图像处理（摄像头传感器和RGB /等位图之间的东西馈送到DNN）。

— hotpaw2
source

4

对信号处理（以及线性代数，向量微积分，数学统计等）的透彻了解对于深度学习领域（尤其是计算机视觉）中的重要工作而言必不可少。

深度学习中的一些高影响力论文（现在已经摘取了大多数低落的果实），这表明他们对信号处理概念有了很好的理解。

一些激励概念：

膨胀卷积：请查看此博客文章。对于在信号处理概念上扎根（哈）的人来说，第一个等式之一就是吃亏。它也与经典小波信号处理中的trous算法紧密相关。
转置的卷积层 / Deconv层。同样，基本的信号处理概念。
转换滤波器的形状 -需要操作符规范和收缩映射的好主意。通常可以在信号理论或控制系统的EE研究生课程中，或在分析（实际或功能性）数学课程中找到它。
对抗性示例：对此进行调查的第一批论文之一（ “ ...的有趣特性”）将其形式化为扰动，并使用神经网络中各个层的非线性和非线性的Lipschitz常数来限制对这样的扰动。同意，该分析是非常初步的，但是我再次相信，这证明了要使包括深度学习在内的任何事物取得非平凡的进步，都需要对理论进行非平凡的理解。

清单继续。因此，即使您最终从事计算机视觉工作并对问题进行深入学习，信号处理背景也将使您很容易掌握。

— AruniRC
source

1

是。不必学习向网络馈送什么内容的任何捷径都必须通过较差的性能来艰难地学习。

— mathreadler '17

4

我确实没有做太多图像处理，但是我上次在神经网络作为热门话题（80年代中期至后期）时曾在一家从事信号分类研究的组织（美国海军）工作。我必须坐在大量的营销材料上。这些论点大致如下：

它就像您的大脑一样属于神经，因为它的性能优于线性分类器，因此它胜过了统计技术。我实际上知道有些人的论文被拒绝了，因为他们使用统计数据来评估绩效。
神经网络是归纳法，如果训练集中没有或只有几个例子，它们可以正确地对事物进行分类。
DARPA正在为这项工作提供资金，我们都知道DARPA所做的一切都是胜利者。（Google尚未出现）
性能不是很好，不需要混淆矩阵，不需要类优先级，我可以告诉您我的错误概率是多少。不需要界线，我只做一次伸出并重新训练随机播放。
选择一些功能并继续使用它，它是一个黑匣子，缩放，数据对齐，杂波抑制，不良标签，出现多个类，这不是我的问题。
玻尔兹曼机器的数学迷
让我们放入一个SVD，也许是一个分形维数。
有监督/无监督的诱饵和切换，我将找到您所有隐藏的模式。这种联想记忆的东西不是深刻的吗？

Bishop的书花了点力气才使我愤世嫉俗。

在许多应用中，最佳信号处理算法将需要在较大的参数空间上进行详尽的枚举搜索，而该参数空间很快变得难以处理。大型服务器场可以增加可实现的搜索空间，但是在某些时候，您需要找到一种启发式方法。DL似乎能够找到其中的一些启发式方法，但它不能解决底层的NP硬优化。

— 斯坦利·帕鲁基维奇（Stanley Pawlukiewicz）
source

您镇压犬儒主义是完全正确的，因为它似乎使很多人失望。有时我希望我早年学到这一点。

— mathreadler '17

3

我从大学的角度来看，许多信号处理人员对ML有点敌意，我怀疑是因为他们认为威胁ML正在蚕食他们的领域。但是最近对复杂价值的深度神经网络的好处进行了很多研究，这可能表明金票确实是对这两个学科的扎实了解。

— 奥斯丁
source

1

是的信号处理与机器学习息息相关。对信号处理的深入了解有助于理解如何构建和使用ML算法，以及（不）适合提供什么样的数据。

— mathreadler '18

2

嗯，是。与使用高级编程语言（如C ++和Python）“杀死”汇编程序的方式相同。但是，这并不意味着您在注册CS课程时就不需要学习汇编。它提供了关于计算机如何工作，高级语言幕后发生的情况，计算机语言的基本原理是什么等方面的深刻见解。

— Jochemspek
source