由于某种原因,尽管AlphaGo Zero取得了令人难以置信的效果,但它却没有像原始的AlphaGo那样受到广泛的宣传。从头开始,它已经击败了AlphaGo Master,并通过了许多其他基准测试。更令人难以置信的是,它已经在40天之内完成了。Google称其为“世界上最好的Go播放器”。
DeepMind声称这是“强化学习的新形式”-这种技术真的新颖吗?还是有其他时间使用过这种技术-如果是,那么他们的结果是什么?我认为我所谈论的要求是:1)没有人为干预,并且2)没有历史性的发挥,但是这些都是灵活的。
这似乎是一个类似的问题,但所有答案似乎都始于AlphaGo Zero是此类产品的第一个假设。