我已经有一个针对单个代理的有效实现,该代理正在处理动态定价问题,目的是使收入最大化。但是,我要解决的问题涉及到几种可以相互替代的不同产品,因此,用独立学习者对所有产品进行动态定价似乎是不正确的,因为一种产品的价格会影响另一种产品的回报。目标将是对它们全部进行动态定价,以使每个单独收入的总和最大化。Q (λ )
我一直在做一些研究,试图找到一些可以通过这种方式应用强化学习的东西,但是我发现许多多代理实现更多地关注于竞争性游戏,而不是合作性游戏,或者它们假设其他代理的知识不完整(我会完全在这种情况下每个代理的知识)。是否以这种方式对合作学习进行了充分研究/记录的应用?