人工智能 dqn

为什么DQN需要两个不同的网络？

我正在研究DQN的此实现，我发现在第124和125行上已经初始化了两个不同的Q网络。根据我的理解，我认为一个网络可以预测适当的操作，第二个网络可以预测目标Q值以查找Bellman误差。为什么我们不能仅制作一个简单的网络来简单地预测Q值，并在两种情况下都使用它？我最好的猜测是这样做是为了减少计算时间，否则我们将不得不找出每个动作的q值，然后选择最佳动作。这是唯一原因吗？我想念什么吗？

12 reinforcement-learning q-learning dqn

Questions tagged «dqn»