欣顿的“胶囊理论”如何运作?


35

杰弗里·欣顿(Geoffrey Hinton)一直在研究他称之为神经网络的“胶囊理论”。这是什么,它如何工作?


8
现在可以在以下位置查看本文:arxiv.org/abs/1710.09829胶囊之间的动态路由Sara Sabour,Nicholas Frosst,Geoffrey E Hinton
Xie

1
还有一个与之相关的问题,信息更新(2017年11月):胶囊网络背后的主要概念是什么?
mjul

Answers:


31

它似乎尚未发布;最好的网上的这些幻灯片这次谈话。(有很多人使用此链接引用了以前的演讲,但可悲的是,在撰写此答案时,它已被打破。)

我的印象是,这是对神经网络内部子网的形式化和抽象化的尝试。也就是说,如果您查看标准的神经网络,则各层是完全连接的(即,第1层中的每个神经元都可以访问第0层中的每个神经元,而第2层中的每个神经元本身都可以访问)。但这显然没有用。取而代之的是,可能有n个并行的层堆叠(“胶囊”),每个层专门处理一些单独的任务(这些任务本身可能需要多个层才能成功完成)。

如果我正确地想象其结果,那么这种更复杂的图拓扑似乎可以轻松地提高所得网络的有效性和可解释性。


9
该文件现已发布(2017年10月):arxiv.org/pdf/1710.09829.pdf
machinaut

13

作为对先前答案的补充:关于这一点的论文主要是关于从原始数据中学习低级胶囊的信息,但在其引言部分中解释了欣顿对胶囊的概念:http : //www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

还值得注意的是,以上答案中与MIT演讲的链接似乎再次起作用。

根据Hinton的说法,“胶囊”是一层内神经元的子集,它既输出“实例化参数”(表示实体是否存在于有限域内),又输出“姿势参数”的矢量,“载体参数”指定实体相对于规范版本。

将低层胶囊的输出参数转换为高层胶囊代表的实体的预测,如果预测一致,则将其激活并输出其自己的参数(高层姿态参数是接收到的预测的平均值)。

Hinton推测,这种高维重合检测是大脑中的迷你列组织所要实现的功能。他的主要目标似乎是替换卷积网络中使用的最大池,在卷积网络中,较深的层会丢失有关姿势的信息。


4

胶囊网络试图模仿欣顿在机器上对人脑的观察。动机源自这样一个事实,即神经网络需要对零件的空间关系进行更好的建模。胶囊网络不是建模共存,而是忽略相对位置,而是尝试对沿着层次结构的不同子部分的全局相对转换建模。正如上面其他人所解释的,这是等方差与不变性的权衡。

因此,这些网络在某种程度上包括观点/方向意识,并对不同的方向做出不同的响应。此属性使它们更具判别力,同时潜在地引入了执行姿势估计的功能,因为潜在空间特征包含可解释的姿势特定细节。

通过在该层中包括称为胶囊的嵌套层,而不是在网络中连接另一个层,可以完成所有这些操作。这些封装可以提供矢量输出,而不是每个节点一个标量输出。

本文的关键贡献是动态路由,它通过智能策略取代了标准的最大池。此算法对胶囊输出应用均值漂移聚类,以确保将输出仅发送到上一层中的适当父级。

作者还将贡献与边际损失和重建损失相结合,这同时有助于更好地学习任务并在MNIST上显示最新的结果。

最近的论文名为“胶囊之间的动态路由” ,可在Arxiv上找到:https://arxiv.org/pdf/1710.09829.pdf 。


3

根据他们的论文,胶囊之间的动态路由

胶囊是一组神经元,其活动矢量代表特定类型的实体(例如对象或对象部分)的实例化参数。我们使用活动矢量的长度来表示实体存在的概率,并使用其方向来表示实例化参数。一级的活动胶囊通过转换矩阵对高层胶囊的实例化参数进行预测。当多个预测结果一致时,更高级别的胶囊就会生效。我们表明,经过判别训练的多层胶囊系统在MNIST上达到了最先进的性能,并且在识别高度重叠的数字方面比卷积网络要好得多。为了获得这些结果,我们使用了一种按协议迭代路由机制:较低级别的容器倾向于将其输出发送给活动向量具有较大标量积的较高级别的容器,而预测来自较低级别的容器。本文的最终版本正在修订中,以纳入审稿人的意见。


2
一个好的答案通常不仅仅是报价。通常,您可以以更清晰的方式重述或深入了解。很少有人会引用所有报价来做出一个好的答案。您是否认为可以通过编辑来改善这一点?
user58 2009年

3

卷积神经网络的主要优点之一是它们对翻译的不变性。但是,这种不变性是有代价的,也就是说,它没有考虑不同功能之间的相互关系。例如,如果我们有一张脸的图片,那么CNN将很难区分嘴巴特征和鼻子特征之间的关系。最大池化层是造成此影响的主要原因。因为当我们使用最大池化层时,我们会丢失嘴巴和噪音的精确位置,而无法说出它们之间的关系。

胶囊试图通过两种方式保持CNN的优势并解决这一缺陷。

  1. 不变性:引用本文

当胶囊正常工作时,视觉实体存在的可能性是局部不变的-当实体在胶囊所覆盖的有限域内移动超过可能出现的流形时,它不会改变。

换句话说,胶囊会考虑我们正在寻找的特定特征的存在,例如嘴或鼻子。此属性确保胶囊与CNN一样翻译不变。

  1. 等方差:capsule不会使特征平移不变,而是使它变为平移等值或视点同变。换句话说,随着特征移动并改变其在图像中的位置,特征向量表示也将以使其等变的相同方式发生变化。胶囊的这种特性试图解决我一开始提到的最大池化层的缺点。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.