在DeepMind的AlphaGo Zero和AlphaZero论文中,他们描述了在蒙特卡洛树搜索中,将Dirichlet噪声添加到根节点(板状态)的先验概率上:
通过将Dirichlet噪声添加到根节点的先验概率来实现额外的探索,特别是,其中和\ varepsilon = 0.25 ; 这种噪音确保可以尝试所有动作,但是搜索可能仍会否决不良动作。 P (小号,一)= (1 - ε )p 一个 + ε η 一个 η 〜风向(0.03 )ε = 0.25
(AlphaGo零)
和:
Dirichlet噪声已添加到根节点中的先验概率;这与典型位置中合法移动的近似数量成反比例,即用于国际象棋,将棋和围棋。
(零零)
我不明白的两件事:
P(s, a)
是维向量。是的简写与狄利克雷分布参数,每个的值是?风向(α )ñ α我只遇到Dirichlet作为多项式分布的共轭形式。为什么在这里挑选呢?
就上下文而言,P(s, a)
只是给定状态/动作的PUCT(多项式上置信度树,置信度上限的一种变体)计算的一个组成部分。它用一个常数和一个度量标准进行缩放,以确定在MCTS期间在同级中已选择给定操作多少次,并添加到估算的操作值中Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
。- 。