什么时候应该使用强化学习与PID控制?


12

在设计诸如OpenAIGym上的Lunar Lander之类的问题的解决方案时,强化学习是一种诱人的方法,可为特工提供足够的动作控制以使其成功着陆。

但是,在什么情况下,控制系统算法(例如PID控制器)可以很好地完成强化学习(如果不是更好的话)呢?

诸如此类的问题这一个做的是解决这个问题的理论非常出色,但无助于解决实际分量。

作为一名人工智能工程师,问题领域的哪些要素应该向我建议PID控制器不足以解决问题,而应改用强化学习算法(反之亦然)?


我对PID的基本想法是说它不容易设计。它涉及许多积分和微分。因此,这基本上与用ML方法替换统计信息时的想法相同。控制系统绝对是完美无瑕的,但是它工作太多。
DuttaA

2
实际上,它工作量不大,是工业上的相当标准,使用MATLAB等现代系统设计工具,您可以相对容易地调整PID或任何其他控制器来满足您的需求。由于强化学习需要大量数据,并且没有像经典控制理论那样的理论上的保证,因此并未在实践中应用强化学习。顺便说一下,控制器的设计不涉及直接与积分/微分相关的工作,对于线性系统,所有工作都是在Laplace域中完成的,这涉及简单的代数运算
Brale_

@Brale_,但它仍然涉及许多理论知识。.拉普拉斯域仅简化了微分,但您需要知道如何设计事物(极点和零点),以使系统不会变得不稳定。我很难想象这些东西实际上是如何工作的。
DuttaA

2
作为在过去的项目中对我有帮助的一个很好的经验法则,如果您不能用几句话解释解释最优策略(PID,RL或其他),那么PID真的很难。吃豆子的最佳政策是什么?
Jaden Travnik

Answers:


5

我认为这些评论基本上是正确的。

PID控制器对于在连续动态系统中找到最佳策略很有用,并且通常因为将域容易地推导出最佳策略,所以这些域通常也用作RL的基准。但是,在实践中,显然,对于可以在其中轻松设计一个域的任何域,显然都希望使用PID控制器:控制器的行为已广为人知,而RL解决方案通常很难解释。

RL发挥作用的地方是我们知道良好行为是什么样的(即,我们知道奖励函数),并且我们知道传感器输入是什么样的(即,我们可以完全准确地数字描述给定状态),但是我们几乎没有或不知道我们实际希望代理商采取什么行动来获得这些回报。

这是一个很好的例子:

  • 如果我想让代理使用最少的燃料从已知动作方式的敌方飞机前面操纵飞机到其后方操纵飞机,我会更喜欢使用PID控制器

  • 如果我想让一名特工控制飞机并击落一架敌机,并留下足够的燃料降落,但没有正式描述敌机的攻击方式(也许人类专家会在模拟中对我们的特工进行试飞) ,我更喜欢RL

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.