目的是使用Tensorforce之类的框架设计一种近端策略优化组件,该组件对依赖于状态驱动规则的操作空间具有特定约束。
问题中列出的设计选项
此处列出了这些选项,以便在阅读下面的初始分析时快速参考。
- 根据internal_state,在每一步更改操作空间。我认为这是胡说八道。
- 不执行任何操作:让模型了解选择不可用的操作没有影响。
- 几乎不执行任何操作:当模型选择不可用的操作时,会对奖励产生轻微的负面影响。
- 帮助模型:通过将整数合并到状态/观察空间中,通知模型什么是internal_state值+项目符号点2或3
初步分析
确实,为每个动作更改动作空间是明智的。实际上,这就是对上述问题的正确表示,以及人们在Chess and Go中玩游戏的正常方式以及计算机击败人的方式。
这种想法的表面上毫无意义,只是Tensorforce项目路线图上的进展和加固理论上的进展的产物,两者在更大的范围内都很年轻。阅读Tensorforce文档和FAQ,似乎该框架并非旨在插入规则引擎来确定操作空间。这不是开源的缺点。似乎没有任何论文为规则条件马尔可夫链决策提供理论或提出算法。
不采取行动的选择是适合文献中当前可用策略的选择。几乎不做任何事情的方法可能会产生更可靠甚至更直接的理想行为。
帮助模型的概念的问题在于,它与扩展模型相比没有一个强大的想法。在开放源代码中,这将通过扩展表示模型的类来完成,在编码为
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
学习系统的扩展以涵盖规则约束的情况对于博士论文是一个好主意,并且可能作为一个具有许多可能应用的项目建议而飞入研究实验室。不要让所有步骤都劝阻研究人员。从本质上讲,它们是任何博士学位论文或获资助的AI实验室项目的步骤列表。
对于短期解决方案,帮助模型可能会起作用,但这不是沿着强化学习道路推进AI理念的合理策略。作为特定问题的短期解决方案,它可能会正常工作。“几乎不做任何事”的想法可能更合理,因为它适合于导致Tensorforce可能使用的特定实现的融合证明。
将其从“几乎不做”重命名为“辅助融合”可能有助于在尝试之前建立正确的观点。您可能会发现,随着趋近收敛,您必须减弱辅助功能,以避免像学习率一样过冲。