Questions tagged «dqn»

1
为什么DQN需要两个不同的网络?
我正在研究DQN的此实现,我发现在第124和125行上已经初始化了两个不同的Q网络。根据我的理解,我认为一个网络可以预测适当的操作,第二个网络可以预测目标Q值以查找Bellman误差。 为什么我们不能仅制作一个简单的网络来简单地预测Q值,并在两种情况下都使用它?我最好的猜测是这样做是为了减少计算时间,否则我们将不得不找出每个动作的q值,然后选择最佳动作。这是唯一原因吗?我想念什么吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.