5
AlphaGo的政策网络和价值网络之间的区别
我正在阅读有关Google AlphaGo的高级摘要(http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html),并且遇到了“政策”一词。网络”和“价值网络”。在较高的层次上,我了解到策略网络用于建议行动,价值网络用于“减少搜索树的深度[并估计]每个位置的获胜者,而不是一直搜索到游戏结束。” 这两个网络对我来说似乎是多余的。如果策略网络未使用价值网络修剪其策略,该怎么做?显而易见,价值网络是一种深度学习神经网络。政策网络只是理论上的抽象,而不是实际的神经网络吗?价值网络的目标变量似乎是赢/输。策略网络是否有目标变量?如果是这样,那是什么?策略网络试图优化什么? 可以在以下位置找到《自然》杂志上发表的Google论文的完整pdf:https: //vk.com/doc-44016343_437229031?dl = 56ce06e325d42fbc72