对Echo State Networks的直观解释是什么？

17

我是递归神经网络（RNN）的新手，并且仍在学习概念。我从抽象的角度理解，回声状态网络（ESN）能够（重新）产生，即使在删除输入后输入序列，即信号。但是，我发现Scholarpedia文章太难于完全理解和理解。

有人可以以最简单的形式解释学习的数学原理。

neural-networks

— Tejaskhot
source

17

回声状态网络是更普遍的储层计算概念的一个实例。ESN的基本思想是获得RNN的好处（处理彼此依赖的输入序列，即像信号一样随时间变化），但是没有训练像消失的梯度问题这样的传统RNN的问题。

ESN通过使用S形传递函数（相对于输入大小，大约100-1000个单位）具有相对较大的稀疏连接的神经元库来实现此目的。容器中的连接分配一次，并且完全随机。储层重量不经过训练。输入神经元连接到容器，并将输入激活信号输入到容器中-这些激活也被分配了未经训练的随机权重。唯一经过训练的权重是将容器连接到输出神经元的输出权重。

在训练中，输入将被输入到水库，教师输出将被应用到输出单元。随时间捕获并存储储层状态。一旦应用了所有训练输入，就可以在捕获的油藏状态和目标输出之间使用线性回归的简单应用。然后可以将这些输出权重合并到现有网络中，并用于新颖的输入。

这个想法是，存储库中的稀疏随机连接允许先前的状态即使经过之后也能“回显”，因此，如果网络收到与其训练过的相似的新颖输入，存储库中的动力学将开始遵循适合输入的激活轨迹，以这种方式可以为其输入的训练信号提供匹配信号，如果训练有素，则可以按照有意义的激活轨迹从已经看到的内容中进行概括。给定输入信号驱动储层。

这种方法的优势在于非常简单的训练过程，因为大多数权重仅分配一次且随机分配。但是，它们能够随时间捕获复杂的动力学，并且能够对动力学系统的属性进行建模。到目前为止，我发现的关于ESN的最有用的论文是：

Herbert Jaeger（ESN的Scholarpedia页面的策展人）关于RNN 训练的教程
MantasLukoševičius的应用回波状态网络的实用指南

它们都具有易于理解的解释以及形式主义，并且在创建带有选择适当参数值的指导的实现方面也提供了出色的建议。

更新： Goodfellow，Bengio和Courville的《深度学习》一书对Echo State Networks进行了较为详细但高级的讨论。10.7节讨论了消失（和爆炸）的梯度问题以及学习长期依赖关系的困难。第10.8节是关于Echo状态网络的。它专门详细介绍了为什么选择具有适当光谱半径值的储层权重至关重要的原因-它与非线性激活单元一起使用，以鼓励稳定性，同时仍在不断传播信息。

— 亚当康基
source

1

在ESN中学习并不是首先要适应权重，更重要的是，输出层将学习要为网络当前状态生成的输出。内部状态基于网络动力学，称为动态储层状态。要了解储层状态是如何变化的，我们需要查看ESN的拓扑。

输入单元连接到内部单元（存储单元）中的神经元，权重被随机初始化。储油罐单元是随机且稀疏连接的，并且具有随机权重。输出单元也连接到所有储存器单元，从而接收储存器状态并产生相应的输出。

$t$ $t$

在我们可以详细解释培训工作原理之前，我们必须解释并定义一些事项：

$T$ $t$ $W_{fb}$ 。在图1中，这些边缘用虚线箭头显示。

变量定义：

$r$
$o$
$t$
$o$
$T$ $t$ $o$

最后，培训如何详细进行？

$t$ $M$ $t$ $r$
$W_{out}$ $M \bullet W_{out} = T -> W_{out} = M \bullet T^{-1}$

因为学习非常快，所以我们可以尝试许多网络拓扑，以找到适合的拓扑。

至衡量 ESN 的性能，请执行以下操作：

在没有老师强迫的情况下进一步运行Echo State Network（自己的输出通过以下方式反馈到ESN的动态存储库中： $W_{fb}$ ）。
记录性能，例如平方误差 $\left|\left|M \bullet W_{out} – T\right|\right|^2$

光谱半径和ESN

一些聪明人已经证明，只有当Spec-tral储层权重矩阵的半径小于或等于ESN时，才可以给出ESN的回波状态属性。 $1$ 。回声状态属性表示系统在有限的时间后会忘记其输入。此属性对于ESN不能过度活跃并能够学习是必需的。

— 疯子
source