解决n型武装匪徒问题的最佳算法?


13

我已经阅读了许多解决n-武装匪徒问题的算法,例如 -greedy,softmax和UCB1,但是我在选择哪种方法最大程度地减少后悔时遇到了麻烦。ϵ

是否存在解决n臂匪问题的最佳算法?是否有选择的算法似乎在实践中表现最佳?


大概没有公认的最佳解决方案,否则Wikipedia页面会这样说,并且不会有实验性的Sourceforge页面
Henry

这不应该放在理论计算机科学SE上吗?

1
@mbq,因为强化学习是机器学习的一个分支,所以我不这么认为;)
steffen 2011年

@steffen当然,这个名称似乎是“ tcsy”。

@mbq我不明白。“ tscy”是什么意思?
steffen

Answers:


9

这是我最近发现的两份调查论文。我尚未阅读它们,但摘要听起来很有希望。

Joann的Vermorel和Mehryar Mohri:多武装强盗算法和经验评估(2005)

从摘要:

赌徒的多臂匪问题是要决定在一系列试验中拉K老虎机的哪个臂以最大化其总报酬。可以用这种方式对许多现实世界中的学习和优化问题进行建模。在过去的二十年中,已经提出了几种策略或算法来解决该问题,但是据我们所知,尚未对这些算法进行通用评估。

Volodymyr Kuleshov和Doina Precup:多臂匪问题的算法(2000)摘要:

其次,大多数算法的性能随强盗问题的参数而变化很大。我们的研究为每种算法确定了性能良好的设置和性能较差的设置。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.