4
在强化学习中如何处理无效动作?
我想创建一个可以玩五行/五子棋的AI。正如我在标题中提到的那样,我想为此使用强化学习。 我将策略渐变方法(即REINFORCE)与基线一起使用。对于价值和政策函数的近似,我使用了神经网络。它具有卷积和完全连接的层。除输出外,所有层都是共享的。该策略的输出层具有8 × 8 = 648×8=648 \times 8=64(单板的大小)输出单元,并在其上具有softmax。因此它是随机的。但是,如果网络产生无效移动的可能性很高,该怎么办?无效的举动是当代理要检查其中有一个“ X”或“ O”的正方形时。我认为它可能会停留在该游戏状态中。 您能为这个问题推荐任何解决方案吗? 我的猜测是使用演员批评方法。对于无效的举动,我们应该给予负奖励,并将转牌转移给对手。