在阅读了Google在Atari游戏上的深刻成就之后,我试图了解q学习和q网络,但是我有点困惑。折扣因素的概念引起了混乱。我所了解的简短摘要。深度卷积神经网络用于估计动作的最佳期望值。网络必须最小化损失函数 ,其中为 其中,是累积得分值,
Q [R 小号,一个小号“,一个”吨吨' θ - 我 γ 我γ θ
是动作选择的得分值。和分别是在时间的状态和动作以及在时间处的状态和动作。该是网络在上一迭代的权重。该是考虑到分值的时间差折算因子。在标是颞步骤。这里的问题是要理解为什么不依赖于。
从数学观点来看,是折扣因子,表示从状态到达状态的可能性。小号'小号
我猜想网络实际上学会了根据的真实值重新缩放,那么为什么不让?γ γ = 1