Answers:
我阅读了很多有关对象检测,对象识别,对象分割,图像分割和语义图像分割的论文,这是我得出的结论可能不正确的结论:
对象识别:在给定图像中,您必须检测所有对象(对象的受限类取决于您的数据集),使用边界框将其本地化,并使用标签将该边界框标记。在下图中,您将看到一个最新的对象识别状态的简单输出。
对象检测:类似于对象识别,但是在此任务中,您只有两类对象分类,即对象边界框和非对象边界框。例如,汽车检测:您必须使用给定的边界框检测给定图像中的所有汽车。
对象分割:像对象识别一样,您将识别图像中的所有对象,但是您的输出应显示该对象,以对图像的像素进行分类。
图像分割:在图像分割中,您将分割图像的区域。您的输出将不会标记彼此一致的图像的片段和区域应在同一片段中。从图像中提取超像素是此任务或前景背景分割的一个示例。
语义分割:在语义分割中,您必须使用一类对象(汽车,人,狗等)和非对象(水,天空,道路等)标记每个像素。换句话说,在语义分割中,您将标记图像的每个区域。
由于即使在2019年至今这个问题仍然不太清楚,它可能会帮助新的ML-Learners选择,因此以下是一个很好的图像显示了差异:
(在对图像进行分类之后,本地化是“绵羊”类周围的边界框) 来源:Towardsdatascience.com
我相信“本地化”的意思是“单个对象分类+使用2D或3D边界框的本地化”。
“对象检测”是对已知的已知对象类的所有实例进行本地化和分类。
语义分割基本上是按像素分类。
还涉及到度量标准(来源:https : //devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/)
精度是精确识别的对象与预测的对象总数的比率(真阳性与真阳性的比率加上假阳性的比率)。
召回率是图像中准确识别的对象与实际对象总数的比率(真阳性与真阳性的比率加上真阴性的比率)。
mAP:基于DetectNet的精度和召回率的乘积的简化平均平均精度得分。对于网络对目标对象的敏感程度以及避免误报的程度,这是一个很好的综合度量。