Answers:
我认为萨顿和巴托仍然是标准。在线上有很多AI类的幻灯片和笔记,但通常不会涉及太多细节。
萨顿(Sutton)和巴托(Barto)有点老,但是他们正在准备第二版教科书。可在此处获得日期为2018年1月的草案; 它与萨顿(Sutton)的网页链接,该网页也包含第一版的全文。
在处理Kochenderfer等人的“不确定性决策”之前,我会先看一下。那本书有一些有趣的应用(主要是在航空领域),但是它移动很快并且反弹很多。Szepesvári的强化学习算法也不错,但很精简-大约需要20页才能到达,而在较新的Sutton和Barto中则需要7页和150页。
除此之外,您还可以尝试研究一些论文-强化学习的知识往往很容易获得。
在这里,您有一些不错的教科书/参考书:
经典
Sutton RS,Barto AG。强化学习:简介。马萨诸塞州剑桥市:布拉德福德书;1998. 322羽
第二版的草稿是免费的:https : //webdocs.cs.ualberta.ca/~sutton/book/the-book.html
罗素/诺维奇第21章:
Russell SJ,Norvig P,Davis E.人工智能:一种现代方法。新泽西上萨德尔河:Prentice Hall;2010。
更多技术
SzepesváriC.强化学习算法。人工智能和机器学习综合讲座。2010; 4(1):1–103。 http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP。动态编程和最优控制。第四版。马萨诸塞州贝尔蒙特:Athena Scientific;2007.第1270羽 免费提供第6章第2卷:http://web.mit.edu/dimitrib/www/dpchapter.pdf
对于最新的发展
Wiering M,van Otterlo M,编辑。强化学习。柏林,海德堡:施普林格柏林海德堡;2012可从以下网站获得:http : //link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ,Amato C,Chowdhary G,How JP,Reynolds HJD,Thornton JR等。不确定性下的决策:理论与应用。1版。马萨诸塞州剑桥:麻省理工学院出版社;2015年352羽
多主体强化学习
BuşoniuL,BabuškaR,Schutter BD。多主体强化学习:概述。在:Srinivasan D,Jain LC,编辑中。多代理系统和应用程序中的创新-1。施普林格柏林海德堡;2010第 183–221。可从以下网站获得:http : //link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM。多主体机器学习:一种增强方法。新泽西州霍博肯:Wiley;2014。
影片/课程
我还建议在YouTube上开设David Silver课程:https : //www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa
我最喜欢的关于强化学习的讲义是斯坦福大学(Stanford)关于ML CS229的课程中吴安德(Andrew Ng)的讲义:
您也可以在iTunes上下载讲座视频。或在youtube上,它们从以下链接开始: