如果环境也是随机的，最优策略是否总是随机的？

如果环境也是随机的，最优策略是否总是随机的（即，从状态到动作的概率分布的映射）？

直观地，如果环境是确定性的（即，如果代理处于状态 $s$ 并采取操作，则下一个状态始终相同，无论在哪个时间步长），那么最优策略也应该是确定性的（也就是说，它应该是状态到动作的映射，而不是动作的概率分布）。 $a$ $s'$

reinforcement-learning stochastic-policy deterministic-policy policy environment

— nbro
source

这是一个相关的问题：mathoverflow.net/q/44677。

— nbro

Answers:

如果环境也是随机的，最优策略是否总是随机的（即，从状态到动作的概率分布的映射）？

没有。

最佳策略通常是确定性的，除非：

重要状态信息丢失（一个POMDP）。例如，在不允许代理知道其确切位置或记住以前状态的地图中，并且赋予其状态不足以消除位置之间的歧义。如果目标是到达特定的终端位置，则最佳策略可能包括一些随机移动，以避免卡住。请注意，在这种情况下，环境可以是确定性的（从可以看到整个状态的人的角度来看），但仍然需要采取随机策略来解决。
存在某种最小极大博弈理论场景，其中确定性策略可能会受到环境或其他代理的惩罚。考虑剪刀/纸/石头或囚徒的困境。

凭直觉，如果环境是确定性的（即，如果代理处于状态𝑠并采取操作𝑎，则下一个状态𝑠′总是相同的，而不管哪个时间步长），那么最优策略也应该是确定性的（也就是说，它应该是状态到动作的映射，而不是动作的概率分布）。

这似乎是合理的，但是您可以使用任何基于值函数的方法来进一步理解这种直觉：

如果您找到了最佳价值函数，那么贪婪地行动就是最佳策略。

上面的陈述只是Bellman最优性方程式的自然语言重述：

v^{*} （ s ） = {最高}_{一个} \sum_{[R ， s^{'}} p （ [R ， s^{'} | s ， 一个 ） （ [R + γ v^{*} （ s^{'} ） ）

$v^*(s) = \text{max}_a \sum_{r,s'}p(r,s'|s,a)(r+\gamma v^*(s'))$

即，当始终选择最大化奖励加下一步折扣值的动作时，可获得最佳值。操作的 $\text{max}_a$ 是确定性的（如有必要，您可以使用操作的有序列表确定性地打破最大值的束缚）。

因此，可以由MDP建模并通过基于值的方法（例如，值迭代，Q学习）解决的任何环境都具有确定性的最佳策略。

在这种环境下，最佳解决方案可能根本不是随机的（即，如果对确定性最佳策略添加任何随机性，则该策略将变得更加糟糕）。但是，当在一个或多个状态下为一个或多个动作的最大值确定联系时，就会有多个等效的最优和确定性策略。您可以构建一个随机策略，将这些策略以任意组合混合使用，这也是最佳选择。

— 尼尔·斯莱特
source

“在这样的环境中，可能没有最优的随机策略”，您是说确定性策略？

— nbro

@nbro：不，我真的是说，没有最佳的随机策略。通常是这种情况。以一个简单的迷宫求解器为例。如果最佳确定性解决方案是从开始到退出的单条路径，则完全添加任何随机性将使该策略严格恶化。如果环境增加了随机噪声（如移动有时失败）这不会改变

— 尼尔·斯莱特

我现在知道了。您说的总是有确定性策略，那么从确定性策略派生而来的随机策略可能会比最佳确定性策略差。

— nbro

@nbro：是的，就是这样。

— 尼尔·斯莱特

我会说不。

例如，考虑多武装匪徒问题。因此，您有 $n$ 武器，所有武器都有可能给您奖励（例如1分）， $p_i$ ， $i$ 在1到 $n$ 之间。这是一个简单的随机环境：这是一个单状态环境，但仍然是一个环境。

$p_i$

显然，如果您处于与其他代理人对抗的环境中（游戏理论设定），则最佳策略肯定是随机的（例如，考虑扑克游戏）。

— 阿德里安·福布（Adrien Forbu）
source

p_{i}

$p_i$

p_{i}

$p_i$

i

$i$

@nbro：可以肯定的是，这是最佳政策的最大化。策略不会尝试猜测随机数生成器，这被认为是不可能的（如果由于系统的某些内部状态而可能，则必须将该内部状态添加到模型中，或者将其视为POMDP）

— Neil Slater

@NeilSlater好的。但是，如果时间有限，结论是否会改变？如果您玩的时间有限，那么我想，期望也必须考虑可用的玩时间。

— nbro

@nbro：这可能会改变您的决定，但实际上与最佳政策无关。匪徒手臂的最佳策略仍是确定性的，关于使用最佳手臂的策略，但您不知道。这是关于勘探与剥削。您可以说这是“探索强盗问题的最佳策略”。不是萨顿和巴托等人使用的术语，但也许有些剖析者确实这么说，我不知道。。。

— 尼尔·斯莱特

环境仅包含一个状态，您一遍又一遍地面临着相同的决定：我必须选择哪支手臂？

— 阿德里安·佛布

我正在考虑一个概率格局，您会发现自己是一位演员，有着各种未知的波峰和波谷。好的确定性方法总是可能会导致您到达最近的局部最优值，但不一定会导致全局最优值。为了找到全局最优，像MCMC算法这样的东西将允许随机地接受暂时性更差的结果，以便摆脱局部最优并找到全局最优。我的直觉是，在随机环境中也是如此。

— 乔纳森·摩尔
source