我正在考虑使用强化学习算法对跟随机器人进行编程。我正在考虑的问题是如何获得学习通过任意路径导航的算法?
遵循《萨顿与巴托书》进行强化学习后,我确实解决了一个涉及赛车场的运动问题,在赛车场中,汽车经纪人学会了不偏离赛道并调节速度。但是,该运动问题使代理人学习了如何在其训练的轨道上进行导航。
让机器人导航任意路径是否在强化学习的范围内?代理商是否绝对必须具有竞赛线路或路径的地图?我可以在状态空间中使用哪些参数?
我正在考虑使用强化学习算法对跟随机器人进行编程。我正在考虑的问题是如何获得学习通过任意路径导航的算法?
遵循《萨顿与巴托书》进行强化学习后,我确实解决了一个涉及赛车场的运动问题,在赛车场中,汽车经纪人学会了不偏离赛道并调节速度。但是,该运动问题使代理人学习了如何在其训练的轨道上进行导航。
让机器人导航任意路径是否在强化学习的范围内?代理商是否绝对必须具有竞赛线路或路径的地图?我可以在状态空间中使用哪些参数?
Answers:
任何机器学习算法的关键指标之一就是它的概括能力(即将其学到的知识应用于以前未曾见过的场景)。强化学习者(RL)可以很好地概括,但是根据我的经验,这种能力在某种程度上取决于状态空间公式。这意味着,如果您能找到正确的设置,那么RL学习者将不需要比赛路线图。
这留下了使用哪些参数的问题。在不了解机器人上可用传感器的更多信息的情况下,我只能推测。我的第一个倾向是尝试对直线和机器人的相对方向进行编码(即,机器人趋向于向右,向左移动,或者只是平行于直线移动)。这样做将导致一个很小的状态空间。尽管不是绝对必要的,但它可以实现快速简单的实现。此外,如果机器人不打算以恒定的速度运动,则可能有助于编码机器人的速度,因为当以更高的速度运动时机器人将需要更快地做出反应。
我不确定您拥有哪种类型的机器人,但几年来我一直在进行机器人抢救线。我已经意识到,如果您想使用PID很好地遵循一条路线,是一个不错的选择。让我对此进行扩展。如果您想像一下线条两侧的两个光传感器,则希望它们的值相等,以使线条位于中间。然后,您可以使用两个传感器的值之差来更改机器人的转动百分比。通过这种技术,可以使机器人以超快的速度跟随一条直线。我就像您一直在考虑使机器人学会提高其线跟踪能力一样。我想出的是从您的初始PID值开始高于您想要的初始PID值,并使用陀螺仪传感器来测量机器人在跟踪线时的振荡频率。您可以从那里创建自己的函数来确定要降低多少值才能获得稳定的系统,这不完全是人工智能,更像是自动优化算法,但是嘿,我18岁,我学会了如何从互联网。我希望这有帮助。如果您有任何疑问,请给我发电子邮件,这不是我的主要电子邮件地址,因此我不会定期检查。69darkeagle@sigaint.org