最好的强盗算法？

27

最著名的强盗算法是上置信界（UCB），它使此类算法普及。从那时起，我认为现在有了更好的算法。当前的最佳算法是什么（从经验性能或理论范围而言）？从某种意义上说，该算法是否最优？

25

NIPS 2011上的一篇论文（“汤普森采样的经验评估”）在实验中显示，汤普森采样优于UCB。UCB的基础是选择在乐观假设下有望获得最高回报的杠杆（即，您对预期收益的估计的方差很高，因此您会不太了解这些杠杆）。相反，汤普森抽样完全是贝叶斯方法：它从后验分布中产生了一个匪徒配置（即预期奖励的向量），然后就好像这是真实配置一样（即它拉动了具有最高预期奖励的杠杆）。

贝叶斯控制规则（“ 学习和行动的最小相对熵原理 ”，JAIR）是汤普森采样的一种概括，它是从信息理论原理和因果关系中得出汤普森采样的。特别是，当您要最小化您的策略和（未知）最佳策略之间的KL以及考虑因果约束时，贝叶斯控制规则是最佳策略。之所以如此重要，是因为它可以看作是贝叶斯推理对动作的扩展：当您的性能标准是估算器与（未知）真实分布之间的KL时，贝叶斯推理可以证明是最佳的预测策略。

— 佩德罗·奥尔特加
source

16

在随机情况下，UCB确实接近最佳状态（对于T回合游戏，对数T因子），并且在与问题相关的意义上，Pinsker不等式的差距最大。Audibert和Bubeck的最新论文在最坏的情况下消除了这种对数依赖关系，但是在有利的情况下（当不同的武器获得的奖励分开很好时）则具有更差的界限。

通常，UCB是较大算法家族中的一种。在游戏的任何时候，您都可以查看所有不“失格”的手臂，即，其最高置信范围不小于某个手臂的下置信心范围。根据这种合格武器的任何分配进行采摘构成了一种有效的策略，并且对常量产生了类似的遗憾。

从经验上讲，我认为尚未对许多不同的策略进行重大评估，但我认为UCB通常非常出色。

最近的大多数研究都集中在将匪徒问题扩展到具有随机奖励的简单K臂设置之外，扩展到非常大（或无限大）的行动空间，并带有或不带有辅助信息，并具有随机或对抗性反馈。在绩效标准不同的场景中也有工作（例如，仅确定最佳团队）。

4

当前的技术水平可以总结如下：

随机的：UCB和变体（遗憾） $R_T = O(\frac{K \log T}{\Delta})$
对抗性：EXP3和变体（后悔） $\tilde{R}_T = O(\sqrt{T K \log K})$
上下文相关：很复杂

与是轮数，臂的数量，最好和第二臂最好（间隙）之间的真实差异。 $T$ $K$ $\Delta$

— 点数
source