AlphaGo的论文推出政策是什么?


11

本文在这里

推出策略...是基于快速,增量计算,基于局部模式的特征的线性softmax策略...

我不了解什么是推出政策,以及它与选择行动的政策网络之间的关系。有更简单的解释吗?


该文件似乎是在收费墙后面……
弗拉迪斯拉夫·多夫加莱斯

@xeon我无能为力。我可以完全访问该论文,但不能在此处上传它(版权法)。也许谷歌周围有人是否有副本?
HelloWorld

1
@xeonairesearch.com/ wp
content

Answers:


11

p(as)asp

当他们说推出策略(我相信他们从西洋双陆棋借来的术语“推出”)是线性softmax函数时,他们指的是逻辑回归中使用的S形函数的一般化。该函数采用以下形式

eβiTxj=1keβjTx

xβiai

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.