对象检测,语义分割和本地化之间有什么区别?


Answers:


18

我阅读了很多有关对象检测,对象识别,对象分割,图像分割和语义图像分割的论文,这是我得出的结论可能不正确的结论:

对象识别:在给定图像中,您必须检测所有对象(对象的受限类取决于您的数据集),使用边界框将其本地化,并使用标签将该边界框标记。在下图中,您将看到一个最新的对象识别状态的简单输出。

对象识别

对象检测:类似于对象识别,但是在此任务中,您只有两类对象分类,即对象边界框和非对象边界框。例如,汽车检测:您必须使用给定的边界框检测给定图像中的所有汽车。

物体检测

对象分割:像对象识别一样,您将识别图像中的所有对象,但是您的输出应显示该对象,以对图像的像素进行分类。

对象分割

图像分割:在图像分割中,您将分割图像的区域。您的输出将不会标记彼此一致的图像的片段和区域应在同一片段中。从图像中提取超像素是此任务或前景背景分割的一个示例。

图像分割

语义分割:在语义分割中,您必须使用一类对象(汽车,人,狗等)和非对象(水,天空,道路等)标记每个像素。换句话说,在语义分割中,您将标记图像的每个区域。

语义分割


好答案。我会注意到cs231n.stanford.edu/slides/winter1516_lecture8.pdf幻灯片8使用了不同的对象检测定义,可以检测同一类中的多个类和多个实例(我不知道是否有一个公认的定义,因此这可能只是由于模棱两可)。
基思

1
实例分割,就像语义分割一样,但是必须将母牛标记为单独的
titus 2016年

2
从第一个注释的幻灯片现在的位置: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu

5

由于即使在2019年至今这个问题仍然不太清楚,它可能会帮助新的ML-Learners选择,因此以下是一个很好的图像显示了差异:

(在对图像进行分类之后,本地化是“绵羊”类周围的边界框) 来源:https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea 来源:Towardsdatascience.com


3

我相信“本地化”的意思是“单个对象分类+使用2D或3D边界框的本地化”。

“对象检测”是对已知的已知对象类的所有实例进行本地化和分类。

语义分割基本上是按像素分类。

还涉及到度量标准(来源:https : //devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/

精度是精确识别的对象与预测的对象总数的比率(真阳性与真阳性的比率加上假阳性的比率)。

召回率是图像中准确识别的对象与实际对象总数的比率(真阳性与真阳性的比率加上真阴性的比率)。

mAP:基于DetectNet的精度和召回率的乘积的简化平均平均精度得分。对于网络对目标对象的敏感程度以及避免误报的程度,这是一个很好的综合度量。


2

本地化一词尚不清楚。因此,我将讨论对象检测和语义分割这两个术语。

在对象检测中,对每个图像像素是否属于特定类别(例如面部)进行分类。在实践中,这通过将像素分组在一起以形成边界框而得以简化,因此将确定边界框是否紧密围绕对象的问题减少了。由于像素可以属于多个对象(例如,脸,眼),因此它们可以同时保存多个标签。

另一方面,语义分割涉及为每个图像像素分配类别标签。尽管它们不包含边界框的简化,但可以提供更好的定位精度,但它们严格每个像素强制使用一个标签。


-2

语义分割:这是将属于同一对象类的部分图像聚在一起的任务。例如:检测路标


2
但是检测道路标志是物体检测。你能解释一下区别吗?
reinierpost
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.