快速锚定RCNN


Answers:


10

锚解释

锚点

(HfeaturemapWfeaturemap)(k)它们,但是它们与图像相对应。然后,对于每个锚,RPN预测包含一个对象的概率以及四个校正坐标,以将锚移动并调整大小到正确的位置。但是锚的几何形状如何与RPN有关系?

锚实际上出现在损失函数中

训练RPN时,首先将一个二进制类别标签分配给每个锚点。高于特定阈值的,具有联合上方交叉点IoU)的锚点与地面真相框重叠,并分配有正标记(同样,具有小于给定阈值的IoU的锚点将标记为“负”)。这些标签还用于计算损失函数:

RPN损失函数

ppt

在此处输入图片说明

x,y,w,x,xa,xy,w,h

还要注意的是,没有标签的锚既不分类也不变形,而RPM只是将其排除在计算之外。一旦完成RPN的工作并生成建议,其余的工作与Fast R-CNN非常相似。


@Fathi如果我们有很多课怎么办?据我所知,在快速R-CNN中,每个训练RoI都分配有一个地面真实级别。所以,我想这里也会发生类似的事情?
thanasissdr

@Fathi我完全同意你在说什么,所以我想你同意我的意思。我的意思是,为简化起见,Faster R-CNN的原始论文的作者仅使用了两个类(背景/对象),试图解释RPN的工作原理,对吗?因此,我可以拥有两个以上的类,而不是只有两个类,我想我可以采用已知的交叉熵损失函数,对吗?
thanasissdr

@thanasissdr Faster R-CNN背后的基本思想是“当神经网络在其他所有方面都非常出色时,为什么不也将它们用于区域建议呢?”。将Fast R-CNN与标准R-CNN进行比较,唯一的区别是RoI建议(也使用相同的旧技术(例如SelectiveSearch或EdgeBoxes)提出)从原始图像映射到卷积特征,然后馈送到FC。这样,省略了每个RoI到CNN的前向通过过程。
Mahan Fathi

在Faster R-CNN中,RPN 学习建议适当的区域。完成RPN后,其余的操作与Fast R-CNN类似,FC会对提案进行分类和回归。
Mahan Fathi

@thanasissdr是的。我们在同一页上。我想您可以在RPN中进行分类,但这是不必要的,因为FC网再次进行了分类,并且不难拒绝垃圾提案。还要考虑管道,您将如何使用分类分数以及它们将如何提供帮助?我最后的立场是,(背景/对象)分类是Faster R-CNN的基石。
Mahan Fathi

1

我昨天看了这篇论文,乍一看,这也使我感到困惑。重新阅读后,我得出以下结论:

  • 原始网络的最后一层(ZF或VGG-16)用作区域提案网络和RoI池的输入。如果是VGG-16,则最后一个转换层是7x7x512 (HxWxD)
  • 该层通过3x3conv层映射到512维层。输出大小为7x7x512(如果使用填充)。
  • 对于每个锚框,该层被映射到具有转换层的7x7x(2k+4k)(例如7x7x54)层。1x1k

现在,根据本文中的图1,您可以拥有输入图像的金字塔(相同比例的不同图像),过滤器金字塔(同一层中不同比例的过滤器)或参考框的金字塔。后者指k的是区域提议网络最后一层的锚框。代替将具有不同尺寸的滤光器彼此堆叠(中间壳体),将具有不同尺寸和纵横比的滤光器彼此堆叠。

简而言之,对于每个锚点(HxW例如7x7)的参考箱(一个金字塔k,例如9)被使用。


但是锚框到底是什么?每个锚框的目的是:用作RPN的输入,以预测每个锚框的宽度和高度上的增量,以作为被视为前景一部分的每个锚框吗?
BadProgrammer

RPN预测前景位置的增量偏移和客观性得分。后者试图明确预测它是背景还是前景(另请参见脚注3)。
Pieter

您能否解释一下3x3conv层如何转换为7x7?在原型文件中,它表示最后一个VGG16层的填充为1。
Klik
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.