与“细分”和“场景标记”相比,“语义细分”是什么?


97

语义分割是仅仅是“白痴”,还是“语义分割”和“分割”之间有区别?“场景标签”或“场景解析”有区别吗?

像素级分割与逐像素分割有什么区别?

(旁白:当您使用这种像素级注释时,是否可以免费获得对象检测,还是还有其他事情要做?)

请提供您的定义来源。

使用“语义细分”的来源

  • Jonathan Long,Evan Shelhamer,Trevor Darrell:用于语义分割的完全卷积网络。2015年的CVPR和2016年的PAMI
  • Hong,Seunghoon,Hyeonwoo Noh和Bohyung Han:“去耦深度神经网络用于半监督语义分割。” arXiv预印本arXiv:1506.04924,2015
  • V. Lempitsky,A。Vedaldi和A. Zisserman:用于语义分割的塔模型。《神经信息处理系统进展》,2011年。

使用“场景标签”的来源

使用“像素级”的来源

  • Pinheiro,Pedro O.和Ronan Collobert:“从卷积网络的图像级到像素级标签。” IEEE关于计算机视觉和模式识别的会议论文集,2015年。(请参阅http://arxiv.org/abs/1411.6228

使用“ pixelwise”的源

Google Ngrams

近年来,“语义细分”似乎比“场景标记”使用更多

在此处输入图片说明


这似乎其他方面非常相似:(全- )像素分类/标签
马丁托马

12
有趣的是,@ MartinThoma有一个arXiv预印本,用于调查语义分段,该问题在问了[link](arxiv.org/pdf/1602.06541.pdf)后将近6个月后才发布。做得好!
Mohamed Hasan

Answers:


92

“分割”是将图像划分为几个“连贯”的部分,但没有试图理解这些部分代表什么的尝试。最著名的作品之一(但绝对不是第一件)是Shi和Malik的“ Normalized Cuts and Image Segmentation”(标准化切割和图像分割)PAMI 2000。这些工作试图根据低级提示(例如颜色,纹理和边界的平滑度)定义“连贯性”。您可以将这些作品追溯到格式塔理论

另一方面,“语义分割”试图将图像划分为语义上有意义的部分,并将每个部分分类为预定类别之一。您还可以通过对每个像素(而不是整个图像/段)进行分类来实现相同的目标。在这种情况下,您要按像素进行分类,这将导致相同的最终结果,但路径略有不同...

因此,我想您可以说“语义分割”,“场景标记”和“按像素分类”基本上是在试图实现相同的目标:从语义上理解图像中每个像素的作用。您可以采取许多途径来实现该目标,这些途径会导致术语上的细微差别。


2
哪个路径导致语义分割,哪个路径导致场景标记或按像素分类?
马丁·托马

3
@moose一般来说,如果您使用源自“细分”研究领域的工具和算法(例如CRF,平滑诱导术语等),那么您正在进行“语义细分”。另一方面,如果您使用的是在图像分类中使用的工具和算法,将它们本地化,则您更有可能将您的工作描述为“像素级标注”。但是,我认为实际上并没有任何实际区别,只有语义上的区别:它们是同一最终目标的同义词。
Shai 2015年

63

我阅读了很多有关对象检测,对象识别,对象分割,图像分割和语义图像分割的论文,这是我得出的结论可能是不正确的:

对象识别:在给定图像中,您必须检测所有对象(对象的受限类取决于您的数据集),使用边界框将其本地化,并用标签标记该边界框。在下图中,您将看到一个最新的对象识别状态的简单输出。

对象识别

对象检测:类似于对象识别,但是在此任务中,您只有两类对象分类,即对象边界框和非对象边界框。例如,汽车检测:您必须使用给定的边界框检测给定图像中的所有汽车。

物体检测

对象分割:像对象识别一样,您将识别图像中的所有对象,但是您的输出应显示此对象,以对图像的像素进行分类。

对象分割

图像分割:在图像分割中,您将分割图像的区域。您的输出将不会标记彼此一致的图像的片段和区域应在同一片段中。从图像中提取超像素是此任务或前景背景分割的一个示例。

图像分割

语义分割:在语义分割中,您必须使用一类对象(汽车,人,狗等)和非对象(水,天空,道路等)来标记每个像素。换句话说,在语义分割中,您将标记图像的每个区域。

语义分割

我认为像素级和像素级标记基本上可以是图像分割或语义分割。我也同样在此链接中回答了您的问题。


8
我还要添加实例细分,即同一对象的实例之间的脱联
Alex

1
我认为“图像识别”是“图像分类”的同义词,而不是“图像检测”。这是关于识别图像中的一个或多个对象并能够判断其是否存在。如果我们还想知道它在哪里,则需要使用边界框检测对象。另外,我看不出为什么对象检测器只能检测单个类的原因。
pietz

我部分同意你的看法。我没有提到图像识别是什么,因此图像识别和分类可能意味着相同。但是,对象检测主要用于两类问题,而对象识别则用于多类。无论如何,我没有办法回答我的问题,这只是三年前阅读一些论文的想法!干杯!
e_soroush

您能详细说明从中找到读数的地方吗?
qarthandso

36

先前的答案确实很棒,我想指出更多补充内容:

对象分割

之所以在研究界不受欢迎的原因之一是因为它在问题上含糊不清。对象分割过去只是意味着在图像中找到单个或少量对象并在它们周围绘制边界,对于大多数目的,您仍然可以假设这意味着这一点。但是,它也开始被用来表示可能是对象的Blob的分割,对象的分割从背景的 (现在通常称为背景减法,背景分割或前景检测),甚至在某些情况下也可以与使用边界框的对象识别互换使用(随着深度神经网络对对象识别方法的出现,这种情况很快就停止了,但是事先对象识别也可以就是简单地标记其中带有对象的整个图像)。

是什么使“分段”“语义”?

Simpy,每个片段,或者在采用深层方法的情况下,每个像素都基于类别指定一个类别标签。一般而言,分割只是按照某些规则对图像进行分割。例如,均值漂移分割可以根据图像能量的变化从非常高的水平划分数据。图切基于相似度的分割同样无法学习,而是直接从与其余图像分开的每个图像的属性中得出。最近的(基于神经网络的)方法使用标记的像素来学习识别与特定类别相关联的局部特征,然后基于哪个类别对该像素具有最高置信度来对每个像素进行分类。这样,“像素标记”实际上是任务的更真实的名称,并且出现了“细分”组件。

实例细分

可以说,对象分割是最困难,最相关和最原始的含义,“实例分割”是指场景中各个对象的分割,无论它们是同一类型。但是,这样做如此困难的原因之一是,从视觉角度(从某种角度来说,从哲学角度而言),使“对象”实例产生的原因还不是很清楚。身体部位是否物体?这样的“零件对象”是否应该通过实例分割算法进行分割?如果仅将它们与整体分开看,是否应该将它们细分?对于复合物体,应该清楚地将两个事物连接在一起但又可以分开的是一个物体还是两个物体(除非正确制作,否则石头是用斧头,锤子还是棍子和石头粘在棍棒顶部的吗?)。而且,它不是 清除如何区分实例。遗嘱实例是否会与其连接的其他墙壁分开?实例应以什么顺序计算?当他们出现?接近观点?尽管存在这些困难,但对象的分割仍然很重要,因为作为人类,我们一直在与对象互动,无论它们的“类别标签”如何(使用您周围的随机对象作为纸张重量,坐在不是椅子的东西上),因此,一些数据集确实尝试解决此问题,但是对该问题尚未给予足够重视的主要原因是因为它的定义不够好。 在此处输入图片说明

场景解析/场景标签

场景解析是场景标记的严格分割方法,它本身也存在一些模糊性问题。从历史上看,场景标记的意思是将整个“场景”(图像)划分为多个片段,并为它们赋予所有的类标记。但是,它也用于表示为图像的区域提供类标签,而无需对其进行明确的分段。关于分割,“语义分割” 并不意味着分割整个场景。对于语义分割,该算法旨在仅分割其已知的对象,并且会因其丢失函数而对没有标签的像素进行标记而受到惩罚。例如,MS-COCO数据集是用于语义分割的数据集,其中仅对某些对象进行了分割。 MS-COCO样本图像

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.