我已经阅读了许多解决n-武装匪徒问题的算法,例如 -greedy,softmax和UCB1,但是我在选择哪种方法最大程度地减少后悔时遇到了麻烦。
是否存在解决n臂匪问题的最佳算法?是否有选择的算法似乎在实践中表现最佳?
大概没有公认的最佳解决方案,否则Wikipedia页面会这样说,并且不会有实验性的Sourceforge页面
—
Henry
@mbq,因为强化学习是机器学习的一个分支,所以我不这么认为;)
—
steffen 2011年
@mbq我不明白。“ tscy”是什么意思?
—
steffen