TL; DR。
贴现率一定小于1的事实是使无限和为有限的数学技巧。这有助于证明某些算法的收敛性。
在实践中,折现因子可用于对决策者不确定在下一个决策瞬间世界(例如环境/游戏/过程)是否即将结束这一事实进行建模。
例如:
如果决策者是机器人,则折扣因子可以是机器人在下一个瞬间关闭的概率(世界在以前的术语中结束了)。这就是为什么机器人是短视的,不优化和奖励,但原因
折扣和奖励。
折扣系数小于1(详细信息)
为了更准确地回答为什么贴现率必须小于一个,我将首先介绍马尔可夫决策过程(MDP)。
强化学习技术可用于解决MDP。MDP提供了一个数学框架,用于对决策情况进行建模,在这种情况下,结果部分是随机的,部分是在决策者的控制之下。MDP通过状态空间,动作空间,状态之间的转移概率函数(取决于 决策者所采取的动作)和奖励函数来定义。SA
在其基本设置中,决策者采取行动并从环境中获得回报,而环境会改变其状态。然后,决策者感知环境状态,采取行动,获得奖励,等等。状态转换是概率性的,并且仅取决于实际状态和决策者所采取的措施。决策者获得的奖励取决于所采取的行动以及环境的原始状态和新状态。
当在状态采取动作并且决策者采取动作之后环境/系统变为状态时,将获得奖励。决策者遵循,即对于每个状态采取行动。这样,该政策就能告诉决策者在每个州应采取哪些行动。策略也可以是随机的,但现在并不重要。Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
我们的目标是找到一个策略这样π
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
其中是折扣因子,。ββ<1
请注意,上面的优化问题具有无限的时间范围(),目标是使的总和最大化(收益乘以)。这通常被称为MDP问题,它具有无限期的折现奖励标准。T→∞discountedRβn
因为所以该问题称为打折。如果不是折衷的问题则总和将不会收敛。在每个时刻平均获得正收益的所有策略总和为无穷大。这将是一个无限的地平线总和奖励标准,而不是一个好的优化标准。β<1β=1
这是一个玩具示例,向您展示我的意思:
假设只有两个可能的操作并且该回报函数等于,如果,并且 如果(奖励不依赖于的状态)。a=0,1R1a=10a=0
显然,获得更多奖励的策略是始终执行而不执行。我将此政策称为。我会比较到另一个策略是采取行动的小概率和动作,否则。a=1a=0π∗π∗π′a=1α<<1a=0
在无限视野中,贴现奖励准则的等式(1)变为策略(几何级数之和),而策略 方程式(1)变为。由于 ,我们说比是更好的策略。实际上是最佳策略。11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
在无限地平线总和奖励标准()中,方程式(1)对于任何策略都不收敛(总和为无穷大)。因此,虽然政策获得的奖励高于但根据此标准,两个政策都是平等的。这就是无限地平线总和奖励标准不起作用的原因之一。β=1ππ′
如前所述,使技巧收敛于等式(1)。β<1
其他最优标准
还有其他的最佳条件不强制:β<1
在有限地平线条件下,目标是使折价奖励最大化,直到时间地平线T
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
对于和有限。β≤1T
在无限远景平均奖励标准中,目标为
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
尾注
根据最佳标准,可以使用不同的算法来找到最佳策略。例如,有限层问题的最佳策略将取决于状态和实际时刻。大多数强化学习算法(例如SARSA或Q学习)仅针对打折奖励无限视界标准收敛到最优策略(对于动态编程算法也是如此)。对于平均奖励标准,没有算法可以收敛到最优策略,但是可以使用R学习,尽管它在理论上没有很好的融合,但仍具有良好的性能。