Answers:
蒙特卡洛法是一种生成大量随机值或模拟并基于一般模式(例如均值和方差)形成某种混合的方法。
例如,您可以将其用于 天气预报。预测长期天气非常困难,因为这是一个混乱的系统,微小的变化可能导致结果截然不同。使用蒙特卡洛方法,您可以运行大量的模拟,每个模拟的大气变化略有不同。然后,您可以分析结果,例如根据多少次模拟最终下雨来计算给定日期下雨的概率。
至于在Alpha Go中使用Monte Carlo,他们似乎正在使用所谓的 Monte Carlo Tree Search。通过这种方法,您将树立可能的动作树,将几步转向未来,并尝试找到最佳顺序。但是,由于围棋游戏中可能的棋步数目非常多,因此您将无法进行超前探索。这意味着现在看起来不错的一些动作以后可能会变得糟糕。
因此,在“蒙特卡洛树搜索”中,您选择了一个有前途的移动顺序,并进行了一个或多个模拟,说明从那时起游戏将如何进行。然后,您可以使用模拟结果更好地了解特定移动顺序的实际效果,并相应地更新树。根据需要重复操作,直到找到一个好的动作。
如果您想了解更多信息或查看一些插图,我发现了一篇有关该主题的有趣论文:C. Browne等人,《蒙特卡洛树搜索方法概述》(开放式存储库 / 永久链接(付费))