合作强化学习


10

我已经有一个针对单个代理的有效实现,该代理正在处理动态定价问题,目的是使收入最大化。但是,我要解决的问题涉及到几种可以相互替代的不同产品,因此,用独立学习者对所有产品进行动态定价似乎是不正确的,因为一种产品的价格会影响另一种产品的回报。目标将是对它们全部进行动态定价,以使每个单独收入的总和最大化。λ

我一直在做一些研究,试图找到一些可以通过这种方式应用强化学习的东西,但是我发现许多多代理实现更多地关注于竞争性游戏,而不是合作性游戏,或者它们假设其他代理的知识不完整(我会完全在这种情况下每个代理的知识)。是否以这种方式对合作学习进行了充分研究/记录的应用?

Answers:



0

总而言之,您要达到的是帕累托效率。

为了使其合作,您需要定义一个由所有玩家共享的奖励功能(它可以是以某种方式组合各个奖励功能的功能)。

某种程度上,您需要权衡从一种产品相对于另一种产品获得的收益。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.