深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf

内容简介本书⽤通俗易懂的语⾔深⼊浅出地介绍了强化学习的基本原理，覆盖了传统的强化学习基本⽅法和当前炙⼿可热的深度强化学习⽅法。开篇从最基本的⻢尔科夫决策过程⼊⼿，将强化学习问题纳⼊到严谨的数学框架中，接着阐述了解决此类问题最基本的⽅法——动态规划⽅法，并从中总结出解决强化学习问题的基本思路：交互迭代策略评估和策略改善。基于这个思路，分别介绍了基于值函数的强化学习⽅法和基于直接策略搜索的强化学习⽅法。最后介绍了逆向强化学习⽅法和近年具有代表性、⽐较前沿的强化学习⽅法。除了系统地介绍基本理论，书中还介绍了相应的数学基础和编程实例。因此，本书既适合零基础的⼈员⼊门学习、也适合相关科研⼈员作为研究参考。未经许可，不得以任何⽅式复制或抄袭本书之部分或全部内容。版权所有，侵权必究。图书在版编⽬（CIP）数据深⼊浅出强化学习：原理⼊门 / 郭宪，⽅勇纯编著. —北京：电⼦⼯业出版社，2018.1 ISBN 978-7-121-32918-0 Ⅰ. ①深… Ⅱ. ①郭… ②⽅… Ⅲ. ①⼈⼯智能 Ⅳ. ①TP18 中国版本图书馆CIP数据核字(2017)第258235号责任编辑：刘皎印刷：装订：出版发⾏：电⼦⼯业出版社北京市海淀区万寿路173信箱邮编100036 开本：720×1000 1/16 印张：16 字数：284千字版次：2018年1⽉第1版推荐序⼀强化学习是机器学习的⼀个重要分⽀，它试图解决决策优化的问题。所谓决策优化，是指⾯对特定状态（State，S），采取什么⾏动⽅案（Action，A），才能使收益最⼤（Reward，R）。很多问题都与决策优化有关，⽐如下棋、投资、课程安排、驾⻋，动作模仿等。 AlphaGo的核⼼算法，就是强化学习。AlphaGo不仅稳操胜券地战胜了当今世界所有⼈类⾼⼿，⽽且甚⾄不需要学习⼈类棋⼿的棋谱，完全靠⾃⼰摸索，就在短短⼏天内，发现并超越了⼀千多年来⼈类积累的全部围棋战略战术。最简单的强化学习的数学模型，是⻢尔科夫决策过程（Markov Decision Process，MDP）。之所以说MDP是⼀个简单的模型，是因为它对问题做了很多限制。 1.⾯对的状态s t ，数量是有限的。 2.采取的⾏动⽅案a t ，数量也是有限的。 3.对应于特定状态s t ，当下的收益r t 是明确的。 4.在某⼀个时刻t，采取了⾏动⽅案a t ，状态从当前的s t 转换成下⼀个状态s t+1 。下⼀个状态有多种可能，记为，i=1...n。换句话说，⾯对局⾯ s t ，采取⾏动 a t ，下⼀个状态是，不是确定的，⽽是概率的，状态转换概率，记为。但是状态转

查看更多收起部分

深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf