学习分层加固任务的结构

我一直在研究层级强化学习问题，尽管许多论文都提出了学习策略的算法，但他们似乎都假设他们事先知道了描述域中动作层次的图结构。例如，迪特里希（Dietterich）的MAXQ分层强化学习方法描述了一个简单的出租车域的动作和子任务图，但没有发现该图。您将如何学习该图的层次结构，而不仅仅是策略？

换句话说，以本文的示例为例，如果一辆出租车在没有先验知识的情况下漫无目的地行驶，并且只有原始的向左移动/向右移动等动作，它将如何学习更高级别的动作，例如去接乘客？如果我正确地理解了本文（可能不是），它会提出如何为这些高级操作更新策略，而不是从一开始就形成这些策略。

machine-learning

— 塞林
source

在当前的最新技术中，RL系统的设计者通常使用关于任务的先验知识来将特定的选项集添加到代理可用的一组原始动作中。

另请参见同一篇论文中的6.2学习任务层次结构部分。

我想到的第一个想法是，如果您不了解任务层次结构，则应从非递阶增强学习开始，然后尝试在学习后或学习时发现结构，即，您试图对模型进行概括。对我而言，此任务类似于用于HMM的贝叶斯模型合并技术（例如，请参见本论文）

— 阿列克谢·卡尔米科夫（Alexey Kalmykov）
source