Spark内核机制解析及性能调优.pdf

大数据科学丛书 Spark内核机制解析及性能调优王家林　段智华　等编著机械工业出版社 Spark建立在抽象的RDD之上，要理解Spark，就需要理解RDD。本书详细讲述了RDD的功能及内部实现的机制，通过剖析源代码引导读者深入理解Spark集群部署的内部机制、Spark内部调度机制、Executor的内部机制和Shuffle的内部机制，进而讲述了“钨丝计划”的内部机制。本书的最后一章是任何Spark应用者都非常关注的Spark性能调优内容。通过学习本书，可以使读者对Spark内核有更加深入的理解，从而实现对 Spark系统深度调优、Spark生产环境下故障的定位和排除，以及Spark的二次开发和系统高级运维。本书适合于对大数据开发有兴趣的在校学生。同时，对于有分布式计算框架应用经验的人员，本书也可以作为Spark源代码解析的参考书籍。图书在版编目（CIP）数据 Spark内核机制解析及性能调优／王家林等编著.—北京：机械工业出版社，2016.10 （大数据科学丛书） ISBN978－7－111－55442－4 Ⅰ.①S…　Ⅱ.①王…　Ⅲ.①数据处理软件　Ⅳ.①TP274 中国版本图书馆CIP数据核字（2016）第278303号机械工业出版社（北京市百万庄大街22号　邮政编码100037）责任编辑：王　斌责任校对：张艳霞　　　　　印刷（　　　装订） 2017年1月第1版·第1次印刷 184mm×260mm·22印张·537千字 0001－3000册标准书号：ISBN978－7－111－55442－4 定价：59.00元凡购本书，如有缺页、倒页、脱页，由本社发行部调换电话服务　　　　　　　　　　　网络服务　服务咨询热线：（010）88379833 读者购书热线：（010）88379649 封面无防伪标均为盗版机工官网：www.cmpbook.com 机工官博：weibo.com／cmp1952 教育服务网：www.cmpedu.com 金书网：www.golden－book.com 前　　言起源于美国加州大学伯克利分校AMP实验室的Spark是当今大数据领域最活跃、最热门的大数据计算处理框架，2009年Spark诞生于AMP实验室，2010年Spark正式成为开源项目，2013年Spark成为Apache基金项目，2014年Spark成为Apache基金的顶级项目。 Spark成功构建了一体化、多元化的大数据处理体系，成功使用SparkSQL、SparkStreaming、 MLlib、GraphX解决了大数据领域的BatchProcessing、StreamProcessing、AdhocQuery等核心问题，SparkSQL、SparkStreaming、Mllib、GraphX四个子框架和Spark核心库之间互相共享数据及相互操作，Spark生态系统强大的集成能力是其他大数据平台无可匹敌的。本书主要面向的对象是广大的Spark爱好者

查看更多收起部分

Spark内核机制解析及性能调优.pdf