我一直在研究层级强化学习问题,尽管许多论文都提出了学习策略的算法,但他们似乎都假设他们事先知道了描述域中动作层次的图结构。例如,迪特里希(Dietterich)的MAXQ分层强化学习方法描述了一个简单的出租车域的动作和子任务图,但没有发现该图。您将如何学习该图的层次结构,而不仅仅是策略?
换句话说,以本文的示例为例,如果一辆出租车在没有先验知识的情况下漫无目的地行驶,并且只有原始的向左移动/向右移动等动作,它将如何学习更高级别的动作,例如去接乘客?如果我正确地理解了本文(可能不是),它会提出如何为这些高级操作更新策略,而不是从一开始就形成这些策略。