Answers:
RL中的自举可以理解为“在更新步骤中针对相同种类的估计值使用一个或多个估计值”。
在大多数TD更新规则中,您将看到类似SARSA(0)更新的内容:
值为真值的估计值,并且也被称为TD目标。这是一种引导方法,因为我们部分使用Q值来更新另一个Q值。存在少量的实际观测数据,其形式为,即该步的直接奖励,以及状态转换。
与蒙特卡洛相反,等效更新规则可能是:
其中是时间的总折扣奖励,假设在此更新中,它从状态开始,采取操作,然后遵循当前策略,直到情节结束。从技术上讲,其中是终端奖励和状态的时间步长。值得注意的是,该目标值根本不使用任何现有估计(来自其他Q值),而仅使用来自环境的一组观察值(即奖励)。因此,它被保证是无偏的真实值的估计,因为它在技术上是一个样品的。
自举的主要缺点是它偏向于(或)的初始值。这些很可能是错误的,并且由于过多的自我参考和不足的真实数据,更新系统整体上可能会很不稳定-这是使用神经网络进行非策略学习(例如Q学习)的问题。
如果不使用自举法,而使用更长的轨迹,通常会存在较大的方差,实际上,这意味着您需要更多的样本才能使估计收敛。因此,尽管存在引导程序方面的问题,但如果可以使之工作,它的学习速度可能会大大提高,并且通常比蒙特卡洛方法更可取。
您可以通过混合使用不同长度轨迹的结果,在基于蒙特卡洛样本的方法和自举的单步TD方法之间折衷。这称为TD()学习 λ λ,并且有各种特定的方法,例如SARSA()或Q()。