1
折现因子对强化学习的意义
在阅读了Google在Atari游戏上的深刻成就之后,我试图了解q学习和q网络,但是我有点困惑。折扣因素的概念引起了混乱。我所了解的简短摘要。深度卷积神经网络用于估计动作的最佳期望值。网络必须最小化损失函数 ,其中为 其中,是累积得分值,Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2]Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2] L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right] Es′[y|s,a]Es′[y|s,a]\mathbb{E}_{s'}\left[y|s,a\right]Q [R 小号,一个小号“,一个”吨吨' θ - 我 γ 我γ θE[r+γmaxa′Q(s′,a′;θ−i)∣∣s,a]E[r+γmaxa′Q(s′,a′;θi−)|s,a] \mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a] QQQrrr是动作选择的得分值。和分别是在时间的状态和动作以及在时间处的状态和动作。该是网络在上一迭代的权重。该是考虑到分值的时间差折算因子。在标是颞步骤。这里的问题是要理解为什么不依赖于。s,as,as,as′,a′s′,a′s',a'tttt′t′t'θ−iθi−\theta^-_iγγ\gammaiiiγγ\gammaθθ\theta 从数学观点来看,是折扣因子,表示从状态到达状态的可能性。小号'小号γγ\gammas′s′s'sss 我猜想网络实际上学会了根据的真实值重新缩放,那么为什么不让?γ γ = 1QQQγγ\gammaγ=1γ=1\gamma=1