内 容 提 要
本书每章都设计了案例研究 ,以机器学习算法为主线 ,结合实例探讨了 Spark的实际应用 。书中没有
让人抓狂的数据公式 ,而是从准备和正确认识数据开始讲起 ,全面涵盖了推荐系统 、回归、聚类、降维等
经典的机器学习算法及其实际应用 。
本书适合互联网公司从事数据分析的人员 ,以及高校数据挖掘相关专业的师生阅读参考 。
?H:59.00
读者服务热线: (010)51095186转600 印装质量热线: (010)81055316
反盗版热线: (010)81055315
广告经营许可证:京崇工商广字第 0021 号
????? [?c] Nick Pentreath
??????`???e?????
任编??CZ?
任???OcT
?j?b??b?&行?? ???;?F.+x 11号
j编?100164????jG?315@ptpress.com.cn
???http://www.ptpress.com.cn
????? ??
'本:800×1000?1/16
? 7:15
??:355?? 2015? 9 $? 1 ?
??:1 — 4 0001 2015? 9 $?? 1 R??
?z权KNmA ??:01-2015-2827号
◆
◆
◆
错误!文档中没有指定样式的文字。 47
1
2
3
4
5
8
10
14
9
6
7
12
11
13
版 权 声 明
Copyright © 2015 Packt Publishing. First published in the English language under the title Machine
Learning with Spark.
Simplified Chinese-language edition copyright © 2015 by Posts & Telecom Press. All rights reserved.
本书中文简体字版由 Packt Publishing授权人民邮电出版社独家出版。未经出版者书面许可,
不得以任何方式复制或抄袭本书内容。
版权所有,侵权必究。
前 言 1
1
2
3
4
5
8
10
13
9
6
7
12
11
前 言
近年来,被收集、存储和分析的数据量呈爆炸式增长,特别是与网络、移动设备相关的数据,
以及传感器产生的数据。大规模数据的存储、处理、分析和建模,以前只有 Google、Yahoo!、Facebook
和Twitter这样的大公司才涉及,而现在越来越多的机构都会面对处理海量数据的挑战。
面对如此量级的数据以及常见的实时利用该数据的需求,人工驱动的系统难以应对。这就催
生了所谓的大数据和机器学习系统,它们从数据中学习并可自动决策。
为了能以低成本实现对大规模数据的支持, Google、Yahoo!、Amazon和Facebook涌现了大量
开源技术。这些技术旨在通过在计算机集群上进行分布式数据存储和计算来简化大数据处理。
这些技术中最广为人知的是 Apache Hadoop,它
[图灵程序设计丛书].Spark机器学习.pdf