强化学习中的引导到底是什么？

显然，在强化学习中，时差（TD）方法是一种引导方法。另一方面，蒙特卡洛方法不是自举方法。

RL中的引导到底是什么？RL中的自举方法是什么？

reinforcement-learning

— 恩布罗
source

RL中的自举可以理解为“在更新步骤中针对相同种类的估计值使用一个或多个估计值”。

在大多数TD更新规则中，您将看到类似SARSA（0）更新的内容：

问 （ s ， 一种 ） \leftarrow 问 （ s ， 一种 ） + α （ {[R}_{Ť + 1个} + γ 问 （ s^{'} ， {一种}^{'} ） - 问 （ s ， 一种 ） ）

$Q(s,a) \leftarrow Q(s,a) + \alpha(R_{t+1} + \gamma Q(s',a') - Q(s,a))$

值 $R_{t+1} + \gamma Q(s',a')$ 为真值的估计值 $Q(s,a)$ ，并且也被称为TD目标。这是一种引导方法，因为我们部分使用Q值来更新另一个Q值。存在少量的实际观测数据，其形式为 $R_{t+1}$ ，即该步的直接奖励，以及状态转换。 $s \rightarrow s'$

与蒙特卡洛相反，等效更新规则可能是：

问 （ s ， 一种 ） \leftarrow 问 （ s ， 一种 ） + α （ G_{Ť} - 问 （ s ， 一种 ） ）

$Q(s,a) \leftarrow Q(s,a) + \alpha(G_{t} - Q(s,a))$

其中是时间的总折扣奖励，假设在此更新中，它从状态开始，采取操作，然后遵循当前策略，直到情节结束。从技术上讲，其中是终端奖励和状态的时间步长。值得注意的是，该目标值根本不使用任何现有估计（来自其他Q值），而仅使用来自环境的一组观察值（即奖励）。因此，它被保证是无偏的真实值的估计，因为它在技术上是一个样品的 $G_{t}$ $t$ $s$ $a$ $G_t = \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1}$ $T$ $Q(s,a)$ $Q(s,a)$ 。

自举的主要缺点是它偏向于（或）的初始值。这些很可能是错误的，并且由于过多的自我参考和不足的真实数据，更新系统整体上可能会很不稳定-这是使用神经网络进行非策略学习（例如Q学习）的问题。 $Q(s',a')$ $V(s')$

如果不使用自举法，而使用更长的轨迹，通常会存在较大的方差，实际上，这意味着您需要更多的样本才能使估计收敛。因此，尽管存在引导程序方面的问题，但如果可以使之工作，它的学习速度可能会大大提高，并且通常比蒙特卡洛方法更可取。

您可以通过混合使用不同长度轨迹的结果，在基于蒙特卡洛样本的方法和自举的单步TD方法之间折衷。这称为TD（）学习 $\lambda$ ，并且有各种特定的方法，例如SARSA（）或Q（）。 $\lambda$ $\lambda$

— 尼尔·斯莱特
source

这可能应该是另一个问题。但是，如果你要的答案，到底为什么是

，并估计

？

R_{t + 1} + γ Q (s^{'}, a^{'})

$R_{t+1} + \gamma Q(s',a')$

Q (s, a)

$Q(s, a)$

— nbro

@nbro：由于在收敛，

（这些方程式和大多数RL由MDP的Bellman方程式驱动）。通过查看从状态

和操作

开始发生的实际事件

Q (s, a) = E [R_{t + 1} + γ Q (S_{t + 1}, A_{t + 1}) | S_{t} = s, A_{t} = a]

$Q(s,a) = \mathbb{E}[R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) | S_t = s, A_t =a]$

s

$s$

a

$a$ ，那么您实际上就是从该期望中取样。问题是，虽然你有值

可能已经不收敛呢，所以样本偏差。

Q (S_{t + 1}, A_{t + 1})

$Q(S_{t+1},A_{t+1})$

— 尼尔·斯莱特

是什么阻止人们在切换到引导程序之前将MC方法用作同相刻录？还是可以认为这是

的子情况？

λ - T D

$\lambda-TD$

— n1k31t4

@ n1k31t4：没有什么可以阻止这样做的，这应该是有效的RL方法。它会与TD（

）不同，但受试图从两种算法中获得良好特征的相同想法所激发。您需要尝试一下，然后将学习效率与TD（

）进行比较-您仍然需要调整一个超参数，这是运行MC的情节数。更通用的版本是允许

改变-从

开始并将其衰减到例如

或任何看起来最理想的值。但是，具有2个超参数，衰减率和目标

λ

$\lambda$

λ

$\lambda$

λ

$\lambda$

λ = 1

$\lambda = 1$

0.4

$0.4$

λ

$\lambda$

— 尼尔斯莱特

@NeilSlater，在使用引导程序时是否可以收敛？我不明白为什么会这样，因为Q（s'，a'）只是一个任意猜测，这会使Q（s，a）的估计失真。此外，为什么MC与TD相比有较高的差异？

— d56

通常，RL中的自举表示您是根据一些估算值而不是某些精确值来更新值。例如

增量蒙特卡洛政策评估更新：

$V(S_t) = V(S_t) + \alpha(G_t - V(S_t))$

TD（0）政策评估更新：

$V(S_t) = V(S_t) + \alpha(R_{t+1} + \gamma V(S_{t+1}) - V(S_t))$

在TD（0），则返回从状态开始被估计（自举）由，而在MC我们使用确切返回。 $s$ $R_{t+1} + \gamma V(S_{t+1})$ $G_t$

— lop
source