AlphaGo的论文推出政策是什么？

11

本文在这里。

推出策略...是基于快速，增量计算，基于局部模式的特征的线性softmax策略...

我不了解什么是推出政策，以及它与选择行动的政策网络之间的关系。有更简单的解释吗？

machine-learning monte-carlo reinforcement-learning games

— 你好，世界
source

该文件似乎是在收费墙后面……

— 弗拉迪斯拉夫·多夫加莱斯

@xeon我无能为力。我可以完全访问该论文，但不能在此处上传它（版权法）。也许谷歌周围有人是否有副本？

— HelloWorld

1

@xeonairesearch.com/ wp

— content

Answers:

11

$p(a \mid s)$ $a$ $s$ $p$

当他们说推出策略（我相信他们从西洋双陆棋借来的术语“推出”）是线性softmax函数时，他们指的是逻辑回归中使用的S形函数的一般化。该函数采用以下形式

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

$x$ $\beta_i$ $a_i$

— 达克斯顿
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.