合作强化学习

10

我已经有一个针对单个代理的有效实现，该代理正在处理动态定价问题，目的是使收入最大化。但是，我要解决的问题涉及到几种可以相互替代的不同产品，因此，用独立学习者对所有产品进行动态定价似乎是不正确的，因为一种产品的价格会影响另一种产品的回报。目标将是对它们全部进行动态定价，以使每个单独收入的总和最大化。 $Q(\lambda)$

我一直在做一些研究，试图找到一些可以通过这种方式应用强化学习的东西，但是我发现许多多代理实现更多地关注于竞争性游戏，而不是合作性游戏，或者它们假设其他代理的知识不完整（我会完全在这种情况下每个代理的知识）。是否以这种方式对合作学习进行了充分研究/记录的应用？

machine-learning reinforcement-learning

— 用户名
source

1

你可以看这些纸。第一个与您的任务非常相关。
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
source

0

总而言之，您要达到的是帕累托效率。

为了使其合作，您需要定义一个由所有玩家共享的奖励功能（它可以是以某种方式组合各个奖励功能的功能）。

某种程度上，您需要权衡从一种产品相对于另一种产品获得的收益。

— 胡安·莱尼
source