最好的强盗算法?


Answers:


25

NIPS 2011上的一篇论文(“汤普森采样的经验评估”)在实验中显示,汤普森采样优于UCB。UCB的基础是选择在乐观假设下有望获得最高回报的杠杆(即,您对预期收益的估计的方差很高,因此您会不太了解这些杠杆)。相反,汤普森抽样完全是贝叶斯方法:它从后验分布中产生了一个匪徒配置(即预期奖励的向量),然后就好像这是真实配置一样(即它拉动了具有最高预期奖励的杠杆)。

贝叶斯控制规则(“ 学习和行动的最小相对熵原理 ”,JAIR)是汤普森采样的一种概括,它是从信息理论原理和因果关系中得出汤普森采样的。特别是,当您要最小化您的策略和(未知)最佳策略之间的KL以及考虑因果约束时,贝叶斯控制规则是最佳策略。之所以如此重要,是因为它可以看作是贝叶斯推理对动作的扩展:当您的性能标准是估算器与(未知)真实分布之间的KL时,贝叶斯推理可以证明是最佳的预测策略。


16

在随机情况下,UCB确实接近最佳状态(对于T回合游戏,对数T因子),并且在与问题相关的意义上,Pinsker不等式的差距最大。Audibert和Bubeck的最新论文在最坏的情况下消除了这种对数依赖关系,但是在有利的情况下(当不同的武器获得的奖励分开很好时)则具有更差的界限。

通常,UCB是较大算法家族中的一种。在游戏的任何时候,您都可以查看所有不“失格”的手臂,即,其最高置信范围不小于某个手臂的下置信心范围。根据这种合格武器的任何分配进行采摘构成了一种有效的策略,并且对常量产生了类似的遗憾。

从经验上讲,我认为尚未对许多不同的策略进行重大评估,但我认为UCB通常非常出色。

最近的大多数研究都集中在将匪徒问题扩展到具有随机奖励的简单K臂设置之外,扩展到非常大(或无限大)的行动空间,并带有或不带有辅助信息,并具有随机或对抗性反馈。在绩效标准不同的场景中也有工作(例如,仅确定最佳团队)。


4

当前的技术水平可以总结如下:

  • 随机的:UCB和变体(遗憾)RT=O(KlogTΔ)
  • 对抗性:EXP3和变体(后悔)R~T=O(TKlogK)
  • 上下文相关:很复杂

与是轮数,臂的数量,最好和第二臂最好(间隙)之间的真实差异。TKΔ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.