大数据科学丛书
Spark内核机制解析及性能调优
王家林 段智华 等编著
机械工业出版社
Spark建立在抽象的RDD之上,要理解Spark,就需要理解RDD。本
书详细讲述了RDD的功能及内部实现的机制,通过剖析源代码引导读者
深入理解Spark集群部署的内部机制、Spark内部调度机制、Executor的内
部机制和Shuffle的内部机制,进而讲述了“钨丝计划”的内部机制。本
书的最后一章是任何Spark应用者都非常关注的Spark性能调优内容。通
过学习本书,可以使读者对Spark内核有更加深入的理解,从而实现对
Spark系统深度调优、Spark生产环境下故障的定位和排除,以及Spark的
二次开发和系统高级运维。
本书适合于对大数据开发有兴趣的在校学生。同时,对于有分布式计
算框架应用经验的人员,本书也可以作为Spark源代码解析的参考书籍。
图书在版编目(CIP)数据
Spark内核机制解析及性能调优/王家林等编著.—北京:机械工业出版
社,2016.10
(大数据科学丛书)
ISBN978-7-111-55442-4
Ⅰ.①S… Ⅱ.①王… Ⅲ.①数据处理软件 Ⅳ.①TP274
中国版本图书馆CIP数据核字(2016)第278303号
机械工业出版社(北京市百万庄大街22号 邮政编码100037)
责任编辑:王 斌
责任校对:张艳霞
印刷( 装订)
2017年1月第1版·第1次印刷
184mm×260mm·22印张·537千字
0001-3000册
标准书号:ISBN978-7-111-55442-4
定价:59.00元
凡购本书,如有缺页、倒页、脱页,由本社发行部调换
电话服务 网络服务
服务咨询热线:(010)88379833
读者购书热线:(010)88379649
封面无防伪标均为盗版
机工官网:www.cmpbook.com
机工官博:weibo.com/cmp1952
教育服务网:www.cmpedu.com
金书网:www.golden-book.com
前 言
起源于美国加州大学伯克利分校AMP实验室的Spark是当今大数据领域最活跃、最热
门的大数据计算处理框架,2009年Spark诞生于AMP实验室,2010年Spark正式成为开源
项目,2013年Spark成为Apache基金项目,2014年Spark成为Apache基金的顶级项目。
Spark成功构建了一体化、多元化的大数据处理体系,成功使用SparkSQL、SparkStreaming、
MLlib、GraphX解决了大数据领域的BatchProcessing、StreamProcessing、AdhocQuery等核
心问题,SparkSQL、SparkStreaming、Mllib、GraphX四个子框架和Spark核心库之间互相共
享数据及相互操作,Spark生态系统强大的集成能力是其他大数据平台无可匹敌的。
本书主要面向的对象是广大的Spark爱好者
Spark内核机制解析及性能调优.pdf