最著名的强盗算法是上置信界(UCB),它使此类算法普及。从那时起,我认为现在有了更好的算法。当前的最佳算法是什么(从经验性能或理论范围而言)?从某种意义上说,该算法是否最优?
最著名的强盗算法是上置信界(UCB),它使此类算法普及。从那时起,我认为现在有了更好的算法。当前的最佳算法是什么(从经验性能或理论范围而言)?从某种意义上说,该算法是否最优?
Answers:
NIPS 2011上的一篇论文(“汤普森采样的经验评估”)在实验中显示,汤普森采样优于UCB。UCB的基础是选择在乐观假设下有望获得最高回报的杠杆(即,您对预期收益的估计的方差很高,因此您会不太了解这些杠杆)。相反,汤普森抽样完全是贝叶斯方法:它从后验分布中产生了一个匪徒配置(即预期奖励的向量),然后就好像这是真实配置一样(即它拉动了具有最高预期奖励的杠杆)。
贝叶斯控制规则(“ 学习和行动的最小相对熵原理 ”,JAIR)是汤普森采样的一种概括,它是从信息理论原理和因果关系中得出汤普森采样的。特别是,当您要最小化您的策略和(未知)最佳策略之间的KL以及考虑因果约束时,贝叶斯控制规则是最佳策略。之所以如此重要,是因为它可以看作是贝叶斯推理对动作的扩展:当您的性能标准是估算器与(未知)真实分布之间的KL时,贝叶斯推理可以证明是最佳的预测策略。
在随机情况下,UCB确实接近最佳状态(对于T回合游戏,对数T因子),并且在与问题相关的意义上,Pinsker不等式的差距最大。Audibert和Bubeck的最新论文在最坏的情况下消除了这种对数依赖关系,但是在有利的情况下(当不同的武器获得的奖励分开很好时)则具有更差的界限。
通常,UCB是较大算法家族中的一种。在游戏的任何时候,您都可以查看所有不“失格”的手臂,即,其最高置信范围不小于某个手臂的下置信心范围。根据这种合格武器的任何分配进行采摘构成了一种有效的策略,并且对常量产生了类似的遗憾。
从经验上讲,我认为尚未对许多不同的策略进行重大评估,但我认为UCB通常非常出色。
最近的大多数研究都集中在将匪徒问题扩展到具有随机奖励的简单K臂设置之外,扩展到非常大(或无限大)的行动空间,并带有或不带有辅助信息,并具有随机或对抗性反馈。在绩效标准不同的场景中也有工作(例如,仅确定最佳团队)。