解决n型武装匪徒问题的最佳算法？

我已经阅读了许多解决n-武装匪徒问题的算法，例如 -greedy，softmax和UCB1，但是我在选择哪种方法最大程度地减少后悔时遇到了麻烦。 $\epsilon$

是否存在解决n臂匪问题的最佳算法？是否有选择的算法似乎在实践中表现最佳？

machine-learning reinforcement-learning multiarmed-bandit

— JS01
source

大概没有公认的最佳解决方案，否则Wikipedia页面会这样说，并且不会有实验性的Sourceforge页面

— Henry

这不应该放在理论计算机科学SE上吗？

@mbq，因为强化学习是机器学习的一个分支，所以我不这么认为；）

— steffen 2011年

@steffen当然，这个名称似乎是“ tcsy”。

@mbq我不明白。“ tscy”是什么意思？

— steffen

这是我最近发现的两份调查论文。我尚未阅读它们，但摘要听起来很有希望。

从摘要：

赌徒的多臂匪问题是要决定在一系列试验中拉K老虎机的哪个臂以最大化其总报酬。可以用这种方式对许多现实世界中的学习和优化问题进行建模。在过去的二十年中，已经提出了几种策略或算法来解决该问题，但是据我们所知，尚未对这些算法进行通用评估。

其次，大多数算法的性能随强盗问题的参数而变化很大。我们的研究为每种算法确定了性能良好的设置和性能较差的设置。

— 斯蒂芬
source