强化学习教科书


Answers:


15

我认为萨顿和巴托仍然是标准。在线上有很多AI类的幻灯片和笔记,但通常不会涉及太多细节。

萨顿(Sutton)和巴托(Barto)有点老,但是他们正在准备第二版教科书。可在此处获得日期为2018年1月的草案; 它与萨顿(Sutton)的网页链接,该网页也包含第一版的全文。

在处理Kochenderfer等人的“不确定性决策”之前,我会先看一下。那本书有一些有趣的应用(主要是在航空领域),但是它移动很快并且反弹很多。Szepesvári的强化学习算法也不错,但很精简-大约需要20页才能到达,而在较新的Sutton和Barto中则需要7页和150页。TD(λ)

除此之外,您还可以尝试研究一些论文-强化学习的知识往往很容易获得。


谢谢,我看过新版本,但我不会说它已经更新太多了。我仍然对最新的曝光感兴趣。
尤利西斯(Ulysses)2014年

是的,这绝对不是彻底的大修,但除了Springer的“演讲笔记”中的某些内容(实际上只是论文集)以外,其他任何事情都没有真正想到。如果您发现其他问题,请发布更新;我想检查一下。
Matt Krause 2014年

我知道,我会做的
Ulysses 2014年

1
@CharlieParker,我不确定。最新草案(2017年6月19日)看起来相当完整,并提到了MIT Press,但MIT Press网站似乎仍在销售第一版。就其价值而言,该草案直接来自作者的公共网站,因此无需担心使用“泄漏的”版本或类似内容。
Matt Krause

1
@Thomas,我用较新的草稿更新了链接。
马特·克劳斯

6

您可能要查看CsabaSzepesvári于2010年发布的用于强化学习算法。可从网站上下载PDF。我认为,它比Sutton和Barto更具技术性,但所涉及的材料却更少。


6

在这里,您有一些不错的教科书/参考书:

经典

Sutton RS,Barto AG。强化学习:简介。马萨诸塞州剑桥市:布拉德福德书;1998. 322羽

第二版的草稿是免费的:https : //webdocs.cs.ualberta.ca/~sutton/book/the-book.html

罗素/诺维奇第21章:

Russell SJ,Norvig P,Davis E.人工智能:一种现代方法。新泽西上萨德尔河:Prentice Hall;2010。

更多技术

SzepesváriC.强化学习算法。人工智能和机器学习综合讲座。2010; 4(1):1–103。 http://www.ualberta.ca/~szepesva/RLBook.html

Bertsekas DP。动态编程和最优控制。第四版。马萨诸塞州贝尔蒙特:Athena Scientific;2007.第1270羽 免费提供第6章第2卷:http//web.mit.edu/dimitrib/www/dpchapter.pdf

对于最新的发展

Wiering M,van Otterlo M,编辑。强化学习。柏林,海德堡:施普林格柏林海德堡;2012可从以下网站获得:http : //link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ,Amato C,Chowdhary G,How JP,Reynolds HJD,Thornton JR等。不确定性下的决策:理论与应用。1版。马萨诸塞州剑桥:麻省理工学院出版社;2015年352羽

多主体强化学习

BuşoniuL,BabuškaR,Schutter BD。多主体强化学习:概述。在:Srinivasan D,Jain LC,编辑中。多代理系统和应用程序中的创新-1。施普林格柏林海德堡;2010第 183–221。可从以下网站获得:http : //link.springer.com/chapter/10.1007/978-3-642-14435-6_7

Schwartz HM。多主体机器学习:一种增强方法。新泽西州霍博肯:Wiley;2014。

影片/课程

我还建议在YouTube上开设David Silver课程:https : //www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.