5
强化学习中的Q函数和V函数是什么?
在我看来,函数可以轻松地由函数表示,因此函数对我来说似乎是多余的。但是,我是强化学习的新手,所以我想我做错了。VVVQQQVVV 定义 Q学习和V学习是在马尔可夫决策过程的背景下进行的。甲MDP是一个5元组与(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSS是一组状态(通常是有限的) AAA是一组动作(通常是有限的) P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)是通过动作从状态到状态的概率。ssss′s′s'aaa R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}中的是通过动作从状态到状态后的立即奖励。(在我看来,通常只有重要)。ssss′s′s'aaas′s′s' γ∈[0,1]γ∈[0,1]\gamma \in [0, 1]被称为折扣因子,它确定是关注即时奖励(),总奖励()还是某种权衡。γ=0γ=0\gamma = 0γ=1γ=1\gamma = 1 一个政策ππ\pi,根据强化学习:简介由萨顿和巴托是一个功能(这可能是概率)。π:S→Aπ:S→A\pi: S \rightarrow A 根据Mario Martins的幻灯片,函数为 ,并且Q函数为 VVVVπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}V^\pi(s) = E_\pi \{R_t | s_t = …