折现因子对强化学习的意义


10

在阅读了Google在Atari游戏上的深刻成就之后,我试图了解q学习和q网络,但是我有点困惑。折扣因素的概念引起了混乱。我所了解的简短摘要。深度卷积神经网络用于估计动作的最佳期望值。网络必须最小化损失函数 ,其中为 其中,是累积得分值,

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]Q [R 小号一个小号一个' θ - γ γ θ
E[r+γmaxaQ(s,a;θi)|s,a]
Qr是动作选择的得分值。和分别是在时间的状态和动作以及在时间处的状态和动作。该是网络在上一迭代的权重。该是考虑到分值的时间差折算因子。在标是颞步骤。这里的问题是要理解为什么不依赖于。s,as,attθiγiγθ

从数学观点来看,是折扣因子,表示从状态到达状态的可能性。小号'小号γss

我猜想网络实际上学会了根据的真实值重新缩放,那么为什么不让?γ γ = 1Qγγ=1

Answers:


6

折扣因子不代表从状态到达状态的可能性。那将是,因为它是无模型的,所以在Q-Learning中不使用(仅基于模型的强化学习方法使用这些过渡概率)。折扣因子是用户调整的超参数,代表根据事件发生的时间长短,未来事件损失多少价值。在引用的公式中,您说的是当前状态的值是此状态的瞬时奖励加上您期望从开始的将来收益ssp(s|s,a)γyss。但是,未来的长期必须要打折扣,因为未来的回报可能没有(如果)具有相同的值作为接收奖励现在(就像我们喜欢收到$ 100,而不是现在的$ 100明天)。由您决定要折旧多少(取决于问题)。折扣系数0意味着您只关心即时奖励。折扣系数越高,您的奖励将随着时间传播越远。γ<1

我建议您在尝试Deep-Q之前先阅读Sutton&Barto的书,以便在神经网络的上下文之外学习纯粹的强化学习,这可能会使您感到困惑。


感谢您的回答,但我仍然有一些疑问。我在大声思考。想象一下,在每一步中您都得到分,而您必须支付才能开始比赛。如何计算期望值?那么,因为您要添加的值在不同时刻在未来,不是吗?dc
Ev=i=1+γidc
d
emanuele

好吧,即使我也要打破 ,的正确值是多少?的正确值是允许我在当前和期货奖励之间进行权衡的值,并且是。是在步骤生存的概率,这就是为什么。支票是,其中在每个步骤中生存的几率是预期的寿命。
dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
emanuele 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.