Answers:
如果算法可以从每个样本中获得最大收益,则它是样本有效的。想象一下学习如何尝试第一次玩PONG。作为人类,您需要花费很少的时间就可以基于很少的样本来学习如何玩游戏。这使您非常“高效采样”。现代RL算法必须看到比您多万倍的数据,因此相对而言,它们的采样效率较低。
在离政策学习的情况下,而不是在他们不分配,我们有兴趣的一部分,所有样本都是有用的。重要抽样是一种过滤这些样本的技术。它最初的用途是了解一种分布,但只能从其他但相关的分布中取样。在RL中,尝试学习非政策时通常会出现这种情况。即,您的样本是由某些行为策略生成的,但是您想学习目标策略。因此,需要测量所生成的样本对目标策略可能已经做出的样本有多重要/相似。因此,一种是从偏重这些“重要”样本的加权分布中取样。但是,有许多方法可以用来描述重要的特征,并且其有效性可能会因应用程序而异。
这种非政策性重要性抽样方式最常见的方法是找到目标政策生成样本的可能性之比。本文重要抽样和似然比政策梯度之间的连接(2010)由唐Abbeel覆盖这个话题。
样本效率表示在达到一定水平的绩效过程中,代理商/算法在环境中需要产生的经验量(例如,其采取的行动数量以及所观察到的结果状态数量+所观察到的奖励)。凭直觉,您可以说,如果算法可以充分利用它恰好能产生并迅速改进其策略的每一项经验,那么它就是样本有效的。如果算法无法从许多经验样本中学习到任何有用信息,并且无法快速改进,则样本效率会很差。
Jaden的答案中关于重要性抽样的解释似乎大部分是正确的。
在您所质疑的论文中,重要性采样是实现以下目的的正确组合之一:1)从多步轨迹中学习,以及2)体验重播缓冲区。这两件事以前很难合并(因为没有重要性采样的多步骤回报仅在策略学习中才是正确的,并且重放缓冲区中的旧样本是由旧策略生成的,这意味着向他们学习是策略外的)。不过,这两件事都可以单独提高样品效率,这意味着如果仍可以将它们组合在一起,则对样品效率也有好处。
..finding a ratio of how likely a sample is to be generated by the target policy
鉴于我们只知道行为政策,我们如何决定?目标政策不是我们必须找到的吗?