在设计诸如OpenAIGym上的Lunar Lander之类的问题的解决方案时,强化学习是一种诱人的方法,可为特工提供足够的动作控制以使其成功着陆。
但是,在什么情况下,控制系统算法(例如PID控制器)可以很好地完成强化学习(如果不是更好的话)呢?
诸如此类的问题这一个做的是解决这个问题的理论非常出色,但无助于解决实际分量。
作为一名人工智能工程师,问题领域的哪些要素应该向我建议PID控制器不足以解决问题,而应改用强化学习算法(反之亦然)?
我对PID的基本想法是说它不容易设计。它涉及许多积分和微分。因此,这基本上与用ML方法替换统计信息时的想法相同。控制系统绝对是完美无瑕的,但是它工作太多。
—
DuttaA
实际上,它工作量不大,是工业上的相当标准,使用MATLAB等现代系统设计工具,您可以相对容易地调整PID或任何其他控制器来满足您的需求。由于强化学习需要大量数据,并且没有像经典控制理论那样的理论上的保证,因此并未在实践中应用强化学习。顺便说一下,控制器的设计不涉及直接与积分/微分相关的工作,对于线性系统,所有工作都是在Laplace域中完成的,这涉及简单的代数运算
—
Brale_
@Brale_,但它仍然涉及许多理论知识。.拉普拉斯域仅简化了微分,但您需要知道如何设计事物(极点和零点),以使系统不会变得不稳定。我很难想象这些东西实际上是如何工作的。
—
DuttaA
作为在过去的项目中对我有帮助的一个很好的经验法则,如果您不能用几句话解释解释最优策略(PID,RL或其他),那么PID真的很难。吃豆子的最佳政策是什么?
—
Jaden Travnik