举个例子,假设我们基于一个人的照片建立一个年龄估计器。下面我们有两个穿着西装的人,但第一个显然比第二个年轻。
(来源:tinytux.com)
有很多功能可以暗示这一点,例如面部结构。但是,最有说服力的功能是头部大小与身体大小的比率:
(来源:wikimedia.org)
因此,假设我们已经训练了CNN回归来预测人的年龄。在我尝试过的许多年龄预测因素中,孩子的上述图像似乎使预测愚弄了他们以为他长大了,这是由于衣服的原因,并且可能是因为他们主要依靠面部:
我想知道香草CNN架构能很好地推断出头部与躯干的比例吗?
与能够在身体和头部上装上边界框的区域RCNN相比,香草CNN会始终表现得更差吗?
就在原始CNN全局变平之前(即在所有卷积之后),每个输出都有一个对应的接收场,应该具有规模感。我知道,更快的RCNN正是在此阶段通过提出边界框建议来利用这一点,以便所有先前的卷积滤波器自动训练到所有比例。
那么,我认为香草CNN应该能够推断出头部与躯干尺寸的比例?这是正确的吗?如果是这样,使用更快的RCNN框架来利用可能已经在检测人员方面接受过预训练的事实的唯一好处是吗?