强化学习中的Q函数和V函数是什么？

30

在我看来，函数可以轻松地由函数表示，因此函数对我来说似乎是多余的。但是，我是强化学习的新手，所以我想我做错了。 $V$ $Q$ $V$

定义

Q学习和V学习是在马尔可夫决策过程的背景下进行的。甲MDP是一个5元组与 $(S, A, P, R, \gamma)$

$S$ 是一组状态（通常是有限的）
$A$ 是一组动作（通常是有限的）
$P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ 是通过动作从状态到状态的概率。 $s$ $s'$ $a$
$R(s, s', a) \in \mathbb{R}$ 中的是通过动作从状态到状态后的立即奖励。（在我看来，通常只有重要）。 $s$ $s'$ $a$ $s'$
$\gamma \in [0, 1]$ 被称为折扣因子，它确定是关注即时奖励（），总奖励（）还是某种权衡。 $\gamma = 0$ $\gamma = 1$

一个政策 $\pi$ ，根据强化学习：简介由萨顿和巴托是一个功能（这可能是概率）。 $\pi: S \rightarrow A$

根据Mario Martins的幻灯片，函数为，并且Q函数为 $V$

V^{π} (s) = E_{π} {R_{t} | s_{t} = s} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s}

$V^\pi(s) = E_\pi \{R_t | s_t = s\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s\}$

Q^{π} (s, a) = E_{π} {R_{t} | s_{t} = s, a_{t} = a} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{R_t | s_t = s, a_t = a\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s, a_t=a\}$

我的想法

该的状态，功能状态有什么预期整体价值（不奖励！）的政策下是。 $V$ $s$ $\pi$

在的功能状态的状态值是什么和一个动作策略下的是。 $Q$ $s$ $a$ $\pi$

这意味着

Q^{π} (s, π (s)) = V^{π} (s)

$Q^\pi(s, \pi(s)) = V^\pi(s)$

对？那么，为什么我们要拥有价值功能呢？（我想我把事情弄混了）

machine-learning reinforcement-learning

— 马丁·托马
source

15

Q值是使动作明确的好方法，因此您可以处理转换函数不可用（无模型）的问题。但是，当您的动作空间很大时，事情就不会那么好，Q值也不会那么方便。考虑大量的动作，甚至是连续的动作空间。

从采样角度看，的维数高于因此与相比，获取足够的样本可能会变得更加困难。如果您可以使用转换功能，则有时是很好的选择。 $Q(s, a)$ $V(s)$ $(s, a)$ $(s)$ $V$

结合使用还有其他用途。例如，优势函数。如果您有兴趣，可以在这里找到使用优势功能的最新示例： $A(s, a) = Q(s, a) - V(s)$

深度强化学习的决斗网络架构

王子瑜，汤姆·绍尔，马特奥·黑塞尔，哈多·范·哈瑟尔特，马克·兰科特和南多·德·弗雷塔斯。

— 胡安·莱尼
source

19

$V^\pi(s)$ 是MDP（马尔可夫决策过程）的状态值函数。它的预期收益从状态开始以下策略。 $s$ $\pi$

在表达中

V^{π} (s) = E_{π} {G_{t} | s_{t} = s}

$V^\pi(s) = E_\pi \{G_t | s_t = s\}$

$G_t$ 是从时间步的总DISCOUNTED奖励，而是立即返回。在这里，您根据策略采取了所有操作。 $t$ $R_t$ $\pi$

$Q^\pi(s, a)$ 是作用值函数。这是从状态开始，遵循策略采取操作的预期收益。它专注于特定状态下的特定动作。 $s$ $\pi$ $a$

Q^{π} (s, a) = E_{π} {G_{t} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{G_t | s_t = s, a_t = a\}$

与之间的关系（处于该状态的值）为 $Q^\pi$ $V^\pi$

V^{π} (s) = \sum_{a \in A} π (a | s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

您将每个操作值乘以采取该操作的概率（策略）相加。 $\pi(a|s)$

如果以网格世界为例，则将（上/下/右/左）的概率乘以（上/下/右/左）的一步状态值。

— 亚伦
source

5

这是最简洁的答案。

— 布雷特

我有资料指出。您如何将这个方程式与答案中提供的方程式？在方程式中，您是根据值的加权和定义。这是从定义我有，它定义不同的作为最高。

V^{π} (s) = max_{a \in A} Q^{π} (s, a)

$V^\pi(s) = \max_{a \in A} Q^\pi(s, a)$

V^{π} (s) = \sum_{a \in A} π (a ∣ s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a \in A} \pi (a \mid s) * Q^\pi(a, s)$

V

$V$

Q

$Q$

V

$V$

Q

$Q$

— nbro

@nbro我相信这取决于您所遵循的政策。在一个纯粹的贪婪政策中，您是正确的。但是，如果这是一项更具探索性的政策，是为随机决定一项行动而建立的，那么以上内容将是正确的

— deltaskelta

7

没错，函数为您提供状态的值，而为您提供状态下的操作的值（遵循给定策略）。我在汤姆·米切尔（Tom Mitchell）的著作《机器学习》（Machine Learning）（1997），第ch中找到了关于Q学习的最清晰的解释。13，这是可下载的。被定义为一个无限级数的和，但在这里并不重要。重要的是函数定义为 $V$ $Q$ $\pi$ $V$ $Q$

Q (s, a) = r (s, a) + γ V^{*} (δ (s, a))

$Q(s,a ) = r(s,a ) + \gamma V^{*}(\delta(s,a))$

其中，如果您遵循最佳策略，则V *是状态的最佳值不知道然而，它在方面具有很好的特征。计算是通过替换第一个方程中的给出

Q

$Q$

V^{*} (s) = max_{a^{'}} Q (s, a^{'})

$V^{*}(s)= \max_{a'} Q(s,a')$

Q

$Q$

V^{*}

$V^*$

Q (s, a) = r (s, a) + γ max_{a^{'}} Q (δ (s, a), a^{'})

$Q(s, a) = r(s, a) + \gamma \max_{a'} Q(\delta(s, a), a')$

起初这似乎是一个奇怪的递归，因为它以后继状态的最佳Q值表示当前状态下动作的Q值，但是当您查看备份过程如何使用它时，这是有道理的：当过程达到目标状态并收集奖励时，该过程将停止，该奖励将成为最终转换的Q值。现在，在后续的训练中，当探索过程达到该先前状态时，备份过程将使用上述等式来更新先前状态的当前Q值。下一次，其访问前任状态的Q值将被更新，如此反复进行下去（Mitchell的书描述了一种更有效的方式，通过存储所有计算并在以后重播它们）。如果经常访问每个状态，则此过程最终会计算出最佳Q

有时您会看到学习率用于控制实际更新多少Q：现在注意，对Q值的更新确实取决于当前的Q值。Mitchell的书还解释了为什么会这样，以及为什么您需要：它用于随机MDP。如果没有，则每次尝试状态，动作对时，都会得到不同的奖励，因此Q ^函数将在所有位置反弹而不会收敛。在那里，因此新知识仅部分被接受。 $\alpha$

Q (s, a) = (1 - α) Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}))

$Q(s, a) = (1-\alpha)Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a'))$

= Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$= Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a') - Q(s,a))$

α

$\alpha$

α

$\alpha$

α

$\alpha$

α

$\alpha$ 设置为高，以使Q的当前（主要是随机值）影响较小。随训练的进行而减少，因此新的更新影响越来越小，现在Q学习收敛

α

$\alpha$

— 序号
source

0

这是亚伦答案中状态值和动作值之间关系的更详细说明。首先让我们看一下策略下的值函数和操作值函数的定义：其中是时间的返回。这两个值函数之间的关系可以推导为 $\pi$

\begin{aligned} v_{π} (s) = E [G_{t} | S_{t} = s] \\ q_{π} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align} &v_{\pi}(s)=E{\left[G_t|S_t=s\right]} \\ &q_{\pi}(s,a)=E{\left[G_t|S_t=s, A_t=a\right]} \end{align}$

G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

t

$t$

\begin{aligned} v_{π} (s) & = E [G_{t} | S_{t} = s] \\ = \sum_{g_{t}} p (g_{t} | S_{t} = s) g_{t} \\ = \sum_{g_{t}} \sum_{a} p (g_{t}, a | S_{t} = s) g_{t} \\ = \sum_{a} p (a | S_{t} = s) \sum_{g_{t}} p (g_{t} | S_{t} = s, A_{t} = a) g_{t} \\ = \sum_{a} p (a | S_{t} = s) E [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} p (a | S_{t} = s) q_{π} (s, a) \end{aligned}

$\begin{align} v_{\pi}(s)&=E{\left[G_t|S_t=s\right]} \nonumber \\ &=\sum_{g_t} p(g_t|S_t=s)g_t \nonumber \\ &= \sum_{g_t}\sum_{a}p(g_t, a|S_t=s)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)\sum_{g_t}p(g_t|S_t=s, A_t=a)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)E{\left[G_t|S_t=s, A_t=a\right]} \nonumber \\ &= \sum_{a}p(a|S_t=s)q_{\pi}(s,a) \end{align}$ 上式很重要。它描述了强化学习中两个基本价值函数之间的关系。它对任何策略均有效。此外，如果我们有确定性策略，则。希望这对您有帮助。（以了解有关Bellman最优性方程式https：//stats.stackexchange的更多信息。

v_{π} (s) = q_{π} (s, π (s))

$v_{\pi}(s)=q_{\pi}(s,\pi(s))$ ）

— 杰士
source

0

价值函数是效用的抽象表述。Q函数用于Q学习算法。

— 伊曼纽尔
source

对于此问题，和是不同的。

V

$V$

Q

$Q$

— 宋锡Th