蒙特卡罗树搜索:可以轻松找到哪种移动方式,哪些会带来麻烦?
我想从一个让我思考MCTS的性能如何的场景开始:假设有一个动作尚未添加到搜索树中。某些层/动作太深了。但是,如果我们玩这个招,那么游戏基本上就赢了。但是,我们还假设在给定的游戏状态下可以采取的所有举动都是非常非常糟糕的。为了争辩,我们假设有1000种可能的动作,其中只有一种是好的(但非常好),而其余的则很不好。不会MCTS没有认识到这一点,并没有朝着这个方向发展搜索树,并且还对该子树进行非常糟糕的评价?我知道MCTS最终会收敛到minimax(如果有足够的内存,最终它将建立整个树)。然后它应该知道即使有很多坏的可能性,此举也是好的。但是我想实际上这不是人们可以依靠的。也许有人可以告诉我这是否是我的正确评估。 除了这种特殊情况外,我还想知道是否还有其他这样的情况,MCTS的表现会很差(或非常好)。