MCTS / UCT的应用


10

MCTS / UCT是一种游戏树搜索方法,它使用强盗算法来选择有前途的节点进行探索。游戏将随机进行至完成,并且会更深入地探索导致更多胜利的节点。强盗算法在探索具有较高获胜率的节点与探索未知节点之间保持了平衡(并且以纯形式不一定使用启发式评估函数)。基于这种通用技术的程序在计算机Go中取得了惊人的效果。

是否将强盗驱动的蒙特卡洛搜索应用于其他任何搜索问题?例如,这对于近似MAX-SAT,BKP或其他组合优化问题的解决方案是否有用?问题的任何特定特征(结构/统计/等)是否暗示了强盗式方法是否有效?

由于解空间的性质,是否存在任何已知的确定性问题可以完全抵御强盗方法?

Answers:


7

这不是一个完整的答案,但是关于将其应用于MAX-SAT的一些基本观察。

7/8X=0X=1个X=0X=1个7/87/8

7/8ñP7/8您使用的启发式方法,即使您猜测得很完美,仍然存在无法满足的公式,对于这些公式而言,回溯只能通过成倍的步骤得出结论,它们无法满足要求。分辨率证明的长度的下限产生这些结果。一种参考是:

PavelPudlák,Russell Impagliazzo:k-SAT的DLL算法(预备版)的下限。SODA 2000:128-136



2

这份最新的调查论文在第7.8节中列出了MCTS在游戏以外的许多搜索和优化问题中的应用:

http://pubs.doc.ic.ac.uk/survey-mcts-methods/survey-mcts-methods.pdf

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=6145622

至于完全抵御基于强盗方法的领域,我不知道有什么附属的。国际象棋是MCTS文献中一个明显的遗漏,这可能是由于“陷阱状态”损害了搜索,也可能是由于计算机国际象棋播放器的优化程度如此之高和良好,以至于如今任何新方法都不太可能实现压在他们身上。

问候,卡梅伦

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.