Answers:
如果环境也是随机的,最优策略是否总是随机的(即,从状态到动作的概率分布的映射)?
没有。
最佳策略通常是确定性的,除非:
重要状态信息丢失(一个POMDP)。例如,在不允许代理知道其确切位置或记住以前状态的地图中,并且赋予其状态不足以消除位置之间的歧义。如果目标是到达特定的终端位置,则最佳策略可能包括一些随机移动,以避免卡住。请注意,在这种情况下,环境可以是确定性的(从可以看到整个状态的人的角度来看),但仍然需要采取随机策略来解决。
存在某种最小极大博弈理论场景,其中确定性策略可能会受到环境或其他代理的惩罚。考虑剪刀/纸/石头或囚徒的困境。
凭直觉,如果环境是确定性的(即,如果代理处于状态𝑠并采取操作𝑎,则下一个状态𝑠′总是相同的,而不管哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是状态到动作的映射,而不是动作的概率分布)。
这似乎是合理的,但是您可以使用任何基于值函数的方法来进一步理解这种直觉:
如果您找到了最佳价值函数,那么贪婪地行动就是最佳策略。
上面的陈述只是Bellman最优性方程式的自然语言重述:
即,当始终选择最大化奖励加下一步折扣值的动作时,可获得最佳值。一个操作的是确定性的(如有必要,您可以使用操作的有序列表确定性地打破最大值的束缚)。
因此,可以由MDP建模并通过基于值的方法(例如,值迭代,Q学习)解决的任何环境都具有确定性的最佳策略。
在这种环境下,最佳解决方案可能根本不是随机的(即,如果对确定性最佳策略添加任何随机性,则该策略将变得更加糟糕)。但是,当在一个或多个状态下为一个或多个动作的最大值确定联系时,就会有多个等效的最优和确定性策略。您可以构建一个随机策略,将这些策略以任意组合混合使用,这也是最佳选择。
我会说不。
例如,考虑多武装匪徒问题。因此,您有武器,所有武器都有可能给您奖励(例如1分),,在1到之间。这是一个简单的随机环境:这是一个单状态环境,但仍然是一个环境。
显然,如果您处于与其他代理人对抗的环境中(游戏理论设定),则最佳策略肯定是随机的(例如,考虑扑克游戏)。