内容简介
本书⽤通俗易懂的语⾔深⼊浅出地介绍了强化学习的基本原理,覆盖
了传统的强化学习基本⽅法和当前炙⼿可热的深度强化学习⽅法。开篇从
最基本的⻢尔科夫决策过程⼊⼿,将强化学习问题纳⼊到严谨的数学框架
中,接着阐述了解决此类问题最基本的⽅法——动态规划⽅法,并从中总
结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。基于
这个思路,分别介绍了基于值函数的强化学习⽅法和基于直接策略搜索的
强化学习⽅法。最后介绍了逆向强化学习⽅法和近年具有代表性、⽐较前
沿的强化学习⽅法。
除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实
例。因此,本书既适合零基础的⼈员⼊门学习、也适合相关科研⼈员作为
研究参考。
未经许可,不得以任何⽅式复制或抄袭本书之部分或全部内容。
版权所有,侵权必究。
图书在版编⽬(CIP)数据
深⼊浅出强化学习:原理⼊门 / 郭宪,⽅勇纯编著. —北京:电⼦⼯业
出版社,2018.1
ISBN 978-7-121-32918-0
Ⅰ. ①深… Ⅱ. ①郭… ②⽅… Ⅲ. ①⼈⼯智能 Ⅳ. ①TP18
中国版本图书馆CIP数据核字(2017)第258235号
责任编辑:刘皎
印刷:
装订:
出版发⾏:电⼦⼯业出版社
北京市海淀区万寿路173信箱 邮编100036
开本:720×1000 1/16 印张:16 字数:284千字
版次:2018年1⽉第1版
推荐序⼀
强化学习是机器学习的⼀个重要分⽀,它试图解决决策优化的问题。
所谓决策优化,是指⾯对特定状态(State,S),采取什么⾏动⽅案
(Action,A),才能使收益最⼤(Reward,R)。很多问题都与决策优化
有关,⽐如下棋、投资、课程安排、驾⻋,动作模仿等。
AlphaGo的核⼼算法,就是强化学习。AlphaGo不仅稳操胜券地战胜了
当今世界所有⼈类⾼⼿,⽽且甚⾄不需要学习⼈类棋⼿的棋谱,完全靠⾃
⼰摸索,就在短短⼏天内,发现并超越了⼀千多年来⼈类积累的全部围棋
战略战术。
最简单的强化学习的数学模型,是⻢尔科夫决策过程(Markov
Decision Process,MDP)。之所以说MDP是⼀个简单的模型,是因为它对
问题做了很多限制。
1.⾯对的状态s
t
,数量是有限的。
2.采取的⾏动⽅案a
t
,数量也是有限的。
3.对应于特定状态s
t
,当下的收益r
t
是明确的。
4.在某⼀个时刻t,采取了⾏动⽅案a
t
,状态从当前的s
t
转换成下⼀个
状态s
t+1
。下⼀个状态有多种可能,记为 ,i=1...n。
换句话说,⾯对局⾯ s
t
,采取⾏动 a
t
,下⼀个状态是 ,不是确定
的,⽽是概率的,状态转换概率,记为 。但是状态转
深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf