文库 行业资料 AI

深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf

AI PDF   284页   下载0   2026-01-25   浏览16   收藏0   点赞0   评分-   111224字   免费文档
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf 第1页
深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf 第2页
深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf 第3页
剩余279页未读, 下载浏览全部
内容简介 本书⽤通俗易懂的语⾔深⼊浅出地介绍了强化学习的基本原理,覆盖 了传统的强化学习基本⽅法和当前炙⼿可热的深度强化学习⽅法。开篇从 最基本的⻢尔科夫决策过程⼊⼿,将强化学习问题纳⼊到严谨的数学框架 中,接着阐述了解决此类问题最基本的⽅法——动态规划⽅法,并从中总 结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。基于 这个思路,分别介绍了基于值函数的强化学习⽅法和基于直接策略搜索的 强化学习⽅法。最后介绍了逆向强化学习⽅法和近年具有代表性、⽐较前 沿的强化学习⽅法。 除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实 例。因此,本书既适合零基础的⼈员⼊门学习、也适合相关科研⼈员作为 研究参考。 未经许可,不得以任何⽅式复制或抄袭本书之部分或全部内容。 版权所有,侵权必究。 图书在版编⽬(CIP)数据 深⼊浅出强化学习:原理⼊门 / 郭宪,⽅勇纯编著. —北京:电⼦⼯业 出版社,2018.1 ISBN 978-7-121-32918-0 Ⅰ. ①深… Ⅱ. ①郭… ②⽅… Ⅲ. ①⼈⼯智能 Ⅳ. ①TP18 中国版本图书馆CIP数据核字(2017)第258235号 责任编辑:刘皎 印刷: 装订: 出版发⾏:电⼦⼯业出版社 北京市海淀区万寿路173信箱 邮编100036 开本:720×1000 1/16 印张:16 字数:284千字 版次:2018年1⽉第1版 推荐序⼀ 强化学习是机器学习的⼀个重要分⽀,它试图解决决策优化的问题。 所谓决策优化,是指⾯对特定状态(State,S),采取什么⾏动⽅案 (Action,A),才能使收益最⼤(Reward,R)。很多问题都与决策优化 有关,⽐如下棋、投资、课程安排、驾⻋,动作模仿等。 AlphaGo的核⼼算法,就是强化学习。AlphaGo不仅稳操胜券地战胜了 当今世界所有⼈类⾼⼿,⽽且甚⾄不需要学习⼈类棋⼿的棋谱,完全靠⾃ ⼰摸索,就在短短⼏天内,发现并超越了⼀千多年来⼈类积累的全部围棋 战略战术。 最简单的强化学习的数学模型,是⻢尔科夫决策过程(Markov Decision Process,MDP)。之所以说MDP是⼀个简单的模型,是因为它对 问题做了很多限制。 1.⾯对的状态s t ,数量是有限的。 2.采取的⾏动⽅案a t ,数量也是有限的。 3.对应于特定状态s t ,当下的收益r t 是明确的。 4.在某⼀个时刻t,采取了⾏动⽅案a t ,状态从当前的s t 转换成下⼀个 状态s t+1 。下⼀个状态有多种可能,记为 ,i=1...n。 换句话说,⾯对局⾯ s t ,采取⾏动 a t ,下⼀个状态是 ,不是确定 的,⽽是概率的,状态转换概率,记为 。但是状态转
深入浅出强化学习_原理入门_郭宪 & 方勇纯.pdf