识别图像中汽车模型的良好功能/算法

我有一个关于物体识别的问题，尤其是识别汽车模型！我正开始着手在不同图像中识别相同汽车模型的工作。目前，我认为3D对象识别的最佳算法之一是SIFT，但在演示实现中反复试验后，我感到奇怪的是，该算法在有光泽的金属物体（例如汽车）上存在一些问题，尤其是当它们具有不同的颜色时。

有谁知道这个领域的一些工作，总的来说是一些合适的算法，可以在不同的图像中找到相同的汽车模型？

在此先感谢您的帮助！

computer-vision local-features object-recognition

— str
source

您可以张贴一些示例图片吗？

— endlith 2012年

当然。用于创建汽车模型模型的图像可能像：s5 coupe training 1或s5 coupe training 2，但也有“正常”图片。查询图像可能像s5 coupe查询1希望有所帮助！

— jstr 2012年

有哪些替代的特征检测器，例如SIFT，GLOH或SURF，可以识别汽车上合适的关键点？

— jstr 2012年

@jstr如果您最终实现了以下描述的方案，它的工作效果如何？

— solutionPuzzles

我将看看所谓的“单词袋”或“视觉单词”方法。它越来越多地用于图像分类和识别。该算法通常从检测图像中的鲁棒点（例如SIFT点）开始。使用这些找到的点周围的区域（在您的情况下为128位SIFT描述符）。

以最简单的形式，可以从所有图像的所有描述符中收集所有数据并将其聚类，例如使用k-means。然后，每个原始图像都具有有助于多个聚类的描述符。这些簇的质心，即视觉单词，可以用作图像的新描述符。基本上，您希望其描述符对图像进行聚类，以指示图像类别。

再次，在最简单的情况下，您有一个群集列表，并且对于每个图像，您要计算这些群集中的哪些包含该图像中的描述符以及有多少个描述符。这类似于文本检索中使用的术语频率/文档反向频率（TD / IFD）方法。请参阅此快速而肮脏的Matlab脚本。

人们正在积极研究这种方法，并且周围还有许多高级算法。

VLfeat网站包含此方法的一个更好的高级演示，对caltech 101数据集进行了分类。同样值得注意的是，来自加州理工学院的结果和软件。

— 莫里斯
source

嘿莫里斯，谢谢您的回答。我会考虑的！但是有一个问题。如果我有“视觉单词”，如何测量它们之间的距离？我想我会使用SIFT描述符是正确的吗？-Lowe在一篇论文中描述了一种通过建立SIFT描述符模型来识别3D对象的方法。有人知道关于该主题的其他好论文（具有其他功能的3D对象识别）吗？

— jstr 2012年

在这种情况下，正好是欧几里德距离，因为您正在对整数向量进行聚类。我认为您不必自己测量簇质心之间的距离，而是在显示查询图像（并由此获得查询描述符）时，可以测量这些描述符最接近哪个质心。

— 莫里斯

可以使用距离测度很清楚;-)，但是在哪些数据上呢？关于每个视觉单词的SIFT描述符？

— jstr 2012年

实际上，作为初始聚类的度量标准，有三遍是为了确定查询描述符最接近哪个质心/视觉词，然后最后将查询td / idf向量与数据库中的td / idf向量进行比较。

— 莫里斯

好的，我知道了;-)，但是距离测量在哪些数据上起作用？在SIFT描述符上？

— jstr 2012年