11 本文在这里。 推出策略...是基于快速,增量计算,基于局部模式的特征的线性softmax策略... 我不了解什么是推出政策,以及它与选择行动的政策网络之间的关系。有更简单的解释吗? machine-learning monte-carlo reinforcement-learning games — 你好,世界 source 该文件似乎是在收费墙后面…… — 弗拉迪斯拉夫·多夫加莱斯 @xeon我无能为力。我可以完全访问该论文,但不能在此处上传它(版权法)。也许谷歌周围有人是否有副本? — HelloWorld 1 @xeonairesearch.com/ wp — content
11 p(a∣s)p(a∣s)aasspp 当他们说推出策略(我相信他们从西洋双陆棋借来的术语“推出”)是线性softmax函数时,他们指的是逻辑回归中使用的S形函数的一般化。该函数采用以下形式 eβTix∑kj=1eβTjxeβiTx∑j=1keβjTx xxβiβiaiai — 达克斯顿 source