书
书
书
大数据科学丛书
Spark
核心源码分析与开发实战
王家林
王雁军
王家虎
编著
机械工业出版社
本书是一本全面介绍 Spark以及Spark生态系统相关技术的书籍。主
要内容包括 Spark系统概述、 Spark安装和集群的部署、 RDD编程实践、
Spark的运 行 模 式、Spark的 运 行 机 制 以 及Spark的 四 大 子 框 架 (Spark
SQL、SparkStreaming、SparkGraphX、MLlib)。本书通过理论和实践相结
合的方式对 Spark的核心框架和生态圈做了详细的解读,不仅对 Spark的
原理进行详细阐述,还结合 Spark的源码和案例操作介绍了 Spark框架的
优雅和丰富的表现力。
本书适合大数据从业者、 Spark技术爱好者阅读。相信通过学习本书,
读者能够熟悉和掌握 Spark这一当前流行的大数据计算框架,并将其投入
到实践中去。
图书在版编目 (CIP)数据
Spark核心源码分析与开发实战 /王家林,王雁军,王家虎编著 .—北京:机
械工业出版社, 2016.1
(大数据科学丛书)
ISBN978-7-111-52860-9
Ⅰ.①S… Ⅱ.①王 …②王 …③王 … Ⅲ.①数 据 处 理 软 件
Ⅳ.①TP274
中国版本图书馆 CIP数据核字( 2016)第021373号
机械工业出版社
(北京市百万庄大街 22号 邮政编码 100037)
策划编辑:王 斌 责任编辑:王 斌
责任校对:张艳霞
责任印制:乔 宇
北京铭城印刷有限公司印刷
2016 年 3月第 1版·第 1次印刷
184mm× 260mm·27. 75 印张·685 千字
0001-3000册
标准书号: ISBN978-7-111-52860-9
定价:75.00元
凡购本书,如有缺页、倒页、脱页,由本社发行部调换
电话服务 网络服务
服务咨询热线:( 010)88361066
读者购书热线:( 010)68326294
(010)88379203
封面无防伪标均为盗版
机 工 官 网: www.cmpbook.com
机 工 官 博: weibo.com/cmp1952
教育服务网: www.cmpedu.com
金 书 网: www.golden-book.com
前
言
写作背景
2014
年
IDC
预测,未来全球大数据市场将以每年超过
30%
的速度增长,而我国更快,
预计将超过
50%
。
2014
年,麦肯锡统计美国医疗行业通过大数据获得潜在价值超
3000
亿美元,欧洲各国
利用大数据节省开支超
1000
亿欧元。未来在全球的交通运输、电力、医疗健康等七大领域,
大数据将会撬动超过
3
万亿美元的市场需求。
大数据时代,各种大数据处理技术百花齐放,有基于磁盘进行数据计算的通用批处理框
架
MapReduce
(
Hadoop
生态系统的大数据计算框架),有低延迟的实时流处理框架
Storm
,
也有提供快速、交
Spark核心源码分析与开发实战.pdf