什么是AlphaGo Zero中的“新型强化学习算法”？

由于某种原因，尽管AlphaGo Zero取得了令人难以置信的效果，但它却没有像原始的AlphaGo那样受到广泛的宣传。从头开始，它已经击败了AlphaGo Master，并通过了许多其他基准测试。更令人难以置信的是，它已经在40天之内完成了。Google称其为“世界上最好的Go播放器”。

DeepMind声称这是“强化学习的新形式”-这种技术真的新颖吗？还是有其他时间使用过这种技术-如果是，那么他们的结果是什么？我认为我所谈论的要求是：1）没有人为干预，并且2）没有历史性的发挥，但是这些都是灵活的。

这似乎是一个类似的问题，但所有答案似乎都始于AlphaGo Zero是此类产品的第一个假设。

machine-learning deep-learning

— 杜布凯
source

强化学习并不新鲜。Google声称哪种技术是第一个？

— HelloWorld

在链接的网站上有关于它的报价，并且在文章中他们使用短语“ AlphaGo Zero中的神经网络是通过一种新颖的强化学习算法从自玩游戏中训练出来的”。

— Dubukay

自我演奏绝对不是新鲜事物。它存在于Google之前。他们的算法中有许多细节使它们“新颖”。也许别人可以回答。

— HelloWorld

我了解这一点-我想我想了解是什么使他们的方法如此出色，以及我们是否应该在其他领域看到这一点。它是一种新的哲学还是真的很好的代码？

— Dubukay

我在这里找到了该文件的副本：nature.com/articles/…（包括共享访问令牌，该令牌来自链接它的博客，因此它是合法的公共共享AFAICS）。甚至阅读说明，虽然这是很难挑选出实际的新奇之后-所有的个人想法似乎是预先存在的RL /玩游戏的技术，它可能只是它们的具体组合是新的

— 尼尔·斯莱特

Nature上的AlphaGo Zero文章“精通无人类知识的游戏”声称与早期版本有四个主要区别：

要点（1）和（2）在强化学习中不是新的，但如您的问题注释中所述，对以前的AlphaGo软件进行了改进。这只是意味着他们现在从随机初始化的权重开始使用纯粹的强化学习。这可以通过更好，更快的学习算法来实现。

他们在这里的主张是“我们的主要贡献是证明无需人类领域知识就可以实现超人的表现。” （第22页）。

从它们的算法比以前的方法更简单，更通用的意义上讲，点（3）和（4）是新颖的。他们还提到，这是对Guo 等人以前工作的改进。

统一策略/价值网络（3）使他们能够实施更有效的蒙特卡洛树搜索变体，以搜索良好的动作，并同时使用搜索树更快地训练网络（4）。这是非常强大的。

此外，它们描述了许多有趣的实现细节，例如批处理和重用数据结构以优化对新动作的搜索。

结果是它需要更少的计算能力，可以在4个TPU上运行，而不是在其软件的早期版本中运行176个GPU和48个TPU。

在Go软件的上下文中，这无疑使其变得“新颖”。我相信（3）和（4）在更广泛的上下文中也是“新颖的”，并将适用于其他强化学习领域，例如机器人技术。

— 姆尤尔
source

我认为（4）在David Silver的演讲（第10讲经典游戏）中得到了提及，在许多现有案例中，MCTS都是由已经受过训练的ML指导的。如果是AlphaGo Zero，则将其翻转，并将MCTS的结果用于设置ML的学习目标。但是，让我怀疑它是否真的是“新颖”的事情是在演讲中提到的这样做的可能性。。。

— 尼尔·斯莱特