博弈论与强化学习之间有什么关系?


11

我对(深度)强化学习(RL)感兴趣。在涉足这一领域之前,我应该参加博弈论(GT)课程吗?

如何GTRL相关?


2
它们与锤子和鲜奶油息息相关。您可能会发现可以同时使用两者的问题,但这并不常见。
Don Reba

4
@DonReba并非两位知名的强化学习研究者表示:udacity.com/course/…我认为博弈论告诉您什么是最佳策略,而RL告诉您代理商如何学习最佳策略或良好策略。
Kiuhnm '16

3
@DonReba,也许是根据其中所教的常规内容而言的。但是,这两个字段的用途并没有太大不同。强化学习可以看作是一种不完美的信息游戏,通常对于一个玩家而言。或者作为两人游戏,另一位自然玩家遵循您希望发现的一组规则。
推测

1
这是教育性的。:)
Don Reba

Answers:


12

在强化学习(RL)中,通常会想到一个潜在的马尔可夫决策过程(MDP)。然后,RL的目标是为MDP学习一个好的策略,该策略通常仅部分指定。MDP可以有不同的目标,例如总奖励,平均奖励或折扣奖励,其中折扣奖励是RL最常见的假设。对MDP的扩展已有很好的研究,可以扩展到两人游戏(即游戏)设置。看到,例如

Filar,Jerzy和Koos Vrieze。竞争马尔可夫决策过程。施普林格科学与商业媒体,2012年。

MDP有一个基础理论,它们可以扩展到两人游戏(零和),包括Banach不动点定理,值迭代,Bellman最优性,策略迭代/策略改进等。 MDP(以及RL)与以下特定类型的游戏之间的紧密联系:

  • 您可以直接学习RL(和MDP),而无需GT作为先决条件;
  • 无论如何,您不会在大多数GT课程中学习到这些东西(通常会侧重于例如战略形式,广泛形式和重复游戏,而不是概括MDP的基于状态的无限游戏)。


0

RL:训练一个代理即可解决马尔可夫决策问题(MDPS)。GT:训练了两名特工解决游戏。多主体强化学习(MARL)可用于解决随机游戏。

如果您对RL在深度学习中的单一代理应用感兴趣,那么您无需参加任何GT课程。对于两个或更多的特工,您可能需要了解博弈论技术。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.