关于SIFT描述符的故事背后是什么故事?


9

以下摘自Lowe 2004论文(http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf)。

一种明显的方法是在适当的比例下对关键点周围的局部图像强度进行采样,并使用归一化的相关度量进行匹配。但是,图像斑块的简单关联对引起样本重合失调的变化非常敏感,例如细微或3D视点变化或非刚性变形。Edelman,Intrator和Poggio(1997)证明了一种更好的方法。他们提出的表示是基于生物视觉的模型,特别是初级视觉皮层中复杂神经元的模型。这些复杂的神经元对特定方向和空间频率的梯度有反应,但是梯度在视网膜上的位置被允许在较小的感受野上移动而不是精确定位。Edelman等。假设这些复杂神经元的功能是允许从多种角度匹配和识别3D对象。

我试图了解SIFT描述符。我了解上一阶段(关键点检测器)。

我不知道为什么要这样实施。我想知道故事背后的故事。

Answers:


1

从获得的比例尺的兴趣点获得的描述符。64×64

它将把这个区域划分为色块,从而得到16个色块。64×6416×16

对于每个补丁,我们计算梯度,然后找到梯度的主导方向(有一些细节),然后以主导方向为参考方向,将360度划分为8个角度为45度的角度区域,然后对位于每个角度区域的每个梯度的大小。

我们可以将其视为分布或梯度方向的8 bin直方图(考虑到强梯度,我们需要更多的信息,因此在计算分布时必须使用较高的权重,因此我们将其大小用作权重,从而得出它们的总和)。然后,我们将这些直方图归一化。

在每个补丁的最后,我们有一个8 bin直方图,我们有16个补丁,导致了128个数字描述符。

通过找到主导方向,我们的描述符也变成旋转不变的。通过使用梯度,我们的描述符相对于基线照度变得不变,并且通过归一化获得的直方图,我们的描述符对于图像的对比度变得不变。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.