2
通过强化学习对跟随机器人进行编程
我正在考虑使用强化学习算法对跟随机器人进行编程。我正在考虑的问题是如何获得学习通过任意路径导航的算法? 遵循《萨顿与巴托书》进行强化学习后,我确实解决了一个涉及赛车场的运动问题,在赛车场中,汽车经纪人学会了不偏离赛道并调节速度。但是,该运动问题使代理人学习了如何在其训练的轨道上进行导航。 让机器人导航任意路径是否在强化学习的范围内?代理商是否绝对必须具有竞赛线路或路径的地图?我可以在状态空间中使用哪些参数?