如果环境也是随机的,最优策略是否总是随机的?


10

如果环境也是随机的,最优策略是否总是随机的(即,从状态到动作的概率分布的映射)?

直观地,如果环境是确定性的(即,如果代理处于状态s并采取操作,则下一个状态始终相同,无论在哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是状态到动作的映射,而不是动作的概率分布)。一个s


这是一个相关的问题:mathoverflow.net/q/44677
nbro

Answers:


6

如果环境也是随机的,最优策略是否总是随机的(即,从状态到动作的概率分布的映射)?

没有。

最佳策略通常是确定性的,除非:

  • 重要状态信息丢失(一个POMDP)。例如,在不允许代理知道其确切位置或记住以前状态的地图中,并且赋予其状态不足以消除位置之间的歧义。如果目标是到达特定的终端位置,则最佳策略可能包括一些随机移动,以避免卡住。请注意,在这种情况下,环境可以是确定性的(从可以看到整个状态的人的角度来看),但仍然需要采取随机策略来解决。

  • 存在某种最小极大博弈理论场景,其中确定性策略可能会受到环境或其他代理的惩罚。考虑剪刀/纸/石头或囚徒的困境。

凭直觉,如果环境是确定性的(即,如果代理处于状态𝑠并采取操作𝑎,则下一个状态𝑠′总是相同的,而不管哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是状态到动作的映射,而不是动作的概率分布)。

这似乎是合理的,但是您可以使用任何基于值函数的方法来进一步理解这种直觉:

如果您找到了最佳价值函数,那么贪婪地行动就是最佳策略。

上面的陈述只是Bellman最优性方程式的自然语言重述:

vs=最高一个[Rsp[Rs|s一个[R+γvs

即,当始终选择最大化奖励加下一步折扣值的动作时,可获得最佳值。一个操作的最高一个是确定性的(如有必要,您可以使用操作的有序列表确定性地打破最大值的束缚)。

因此,可以由MDP建模并通过基于值的方法(例如,值迭代,Q学习)解决的任何环境都具有确定性的最佳策略。

在这种环境下,最佳解决方案可能根本不是随机的(即,如果对确定性最佳策略添加任何随机性,则该策略将变得更加糟糕)。但是,当在一个或多个状态下为一个或多个动作的最大值确定联系时,就会有多个等效的最优和确定性策略。您可以构建一个随机策略,将这些策略以任意组合混合使用,这也是最佳选择。


1
“在这样的环境中,可能没有最优的随机策略”,您是说确定性策略?
nbro

2
@nbro:不,我真的是说,没有最佳的随机策略。通常是这种情况。以一个简单的迷宫求解器为例。如果最佳确定性解决方案是从开始到退出的单条路径,则完全添加任何随机性将使该策略严格恶化。如果环境增加了随机噪声(如移动有时失败)这不会改变
尼尔·斯莱特

2
我现在知道了。您说的总是有确定性策略,那么从确定性策略派生而来的随机策略可能会比最佳确定性策略差。
nbro

1
@nbro:是的,就是这样。
尼尔·斯莱特

5

我会说不。

例如,考虑多武装匪徒问题。因此,您有ñ武器,所有武器都有可能给您奖励(例如1分),p一世一世在1到ñ之间。这是一个简单的随机环境:这是一个单状态环境,但仍然是一个环境。

p一世

显然,如果您处于与其他代理人对抗的环境中(游戏理论设定),则最佳策略肯定是随机的(例如,考虑扑克游戏)。


p一世p一世一世

2
@nbro:可以肯定的是,这是最佳政策的最大化。策略不会尝试猜测随机数生成器,这被认为是不可能的(如果由于系统的某些内部状态而可能,则必须将该内部状态添加到模型中,或者将其视为POMDP)
Neil Slater

@NeilSlater好的。但是,如果时间有限,结论是否会改变?如果您玩的时间有限,那么我想,期望也必须考虑可用的玩时间。
nbro

2
@nbro:这可能会改变您的决定,但实际上与最佳政策无关。匪徒手臂的最佳策略仍是确定性的,关于使用最佳手臂的策略,但您不知道。这是关于勘探与剥削。您可以说这是“探索强盗问题的最佳策略”。不是萨顿和巴托等人使用的术语,但也许有些剖析者确实这么说,我不知道。。。
尼尔·斯莱特

1
环境仅包含一个状态,您一遍又一遍地面临着相同的决定:我必须选择哪支手臂?
阿德里安·佛布

0

我正在考虑一个概率格局,您会发现自己是一位演员,有着各种未知的波峰和波谷。好的确定性方法总是可能会导致您到达最近的局部最优值,但不一定会导致全局最优值。为了找到全局最优,像MCMC算法这样的东西将允许随机地接受暂时性更差的结果,以便摆脱局部最优并找到全局最优。我的直觉是,在随机环境中也是如此。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.