通过强化学习对跟随机器人进行编程

我正在考虑使用强化学习算法对跟随机器人进行编程。我正在考虑的问题是如何获得学习通过任意路径导航的算法？

遵循《萨顿与巴托书》进行强化学习后，我确实解决了一个涉及赛车场的运动问题，在赛车场中，汽车经纪人学会了不偏离赛道并调节速度。但是，该运动问题使代理人学习了如何在其训练的轨道上进行导航。

让机器人导航任意路径是否在强化学习的范围内？代理商是否绝对必须具有竞赛线路或路径的地图？我可以在状态空间中使用哪些参数？

— 卢勋爵
source

我不知道该怎么做，但是我敢肯定，可以教它如何保持自己在一条路径中，而不管它的形状如何。在这种情况下，教学的目标应该是机器人根据其即时输入（或某些历史记录）做出的本地决策。这样，路径的形状并不重要，因为所有决策都是局部的。

— 沙巴兹（Shahbaz）2012年

@Shahbaz-您会建议我在状态空间中使用什么？

— 卢勋爵。

我实际上不确定。即使我在大学学习过AI，也从来都不是我的工作/研究领域。您接受的答案似乎很合理！

— Shahbaz 2012年

您是否正在使用答案来测试Markdown？您可以只写所需内容，然后在其下看到立即渲染，然后不发布它。

— Shahbaz 2014年

Answers:

任何机器学习算法的关键指标之一就是它的概括能力（即将其学到的知识应用于以前未曾见过的场景）。强化学习者（RL）可以很好地概括，但是根据我的经验，这种能力在某种程度上取决于状态空间公式。这意味着，如果您能找到正确的设置，那么RL学习者将不需要比赛路线图。

这留下了使用哪些参数的问题。在不了解机器人上可用传感器的更多信息的情况下，我只能推测。我的第一个倾向是尝试对直线和机器人的相对方向进行编码（即，机器人趋向于向右，向左移动，或者只是平行于直线移动）。这样做将导致一个很小的状态空间。尽管不是绝对必要的，但它可以实现快速简单的实现。此外，如果机器人不打算以恒定的速度运动，则可能有助于编码机器人的速度，因为当以更高的速度运动时机器人将需要更快地做出反应。

— 守护进程
source

没有地图，状态空间就是机器人从其当前位置可以感知到的。因此，在某种程度上，地图只是一种“向前看”的方式。在没有地图的情况下，学习到的行为本质上将是“做与以前相同的事情，但是会变慢，因为我们不知道这次转弯在哪里”。（大概可以分辨出轨道的边缘在哪里。）

— Ian

策略告诉我们在给定状态下要应用哪种控制。如果状态空间对RL代理的表述得很好，则明显不同的场景在状态空间中可能看起来相同，并且产生相同的行为。这称为一般化，如果正确完成，则是理想的。机器人将根据其控制环的速度获得最大速度。学到的行为不一定会减慢速度。如果报酬与运行时间长短成反比，则代理将倾向于相对于其控制环的速度最大化其速度。

— DaemonMaker 2013年

我不确定您拥有哪种类型的机器人，但几年来我一直在进行机器人抢救线。我已经意识到，如果您想使用PID很好地遵循一条路线，是一个不错的选择。让我对此进行扩展。如果您想像一下线条两侧的两个光传感器，则希望它们的值相等，以使线条位于中间。然后，您可以使用两个传感器的值之差来更改机器人的转动百分比。通过这种技术，可以使机器人以超快的速度跟随一条直线。我就像您一直在考虑使机器人学会提高其线跟踪能力一样。我想出的是从您的初始PID值开始高于您想要的初始PID值，并使用陀螺仪传感器来测量机器人在跟踪线时的振荡频率。您可以从那里创建自己的函数来确定要降低多少值才能获得稳定的系统，这不完全是人工智能，更像是自动优化算法，但是嘿，我18岁，我学会了如何从互联网。我希望这有帮助。如果您有任何疑问，请给我发电子邮件，这不是我的主要电子邮件地址，因此我不会定期检查。69darkeagle@sigaint.org

— 奥马尔·奎伊
source