C
M
Y
CM
MY
CY
CMY
K
Java网�爬虫从入�到��fy.pdf 1 2019/11/5 15:35:47
内 容 简 介
本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉
及的Java基础知识、 HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数
据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者
的动手实践能力。 同时,本书还介绍了 3种Java网络爬虫开源框架, 即Crawler4j、WebCollector
和WebMagic。
本书适用于 Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,
供高等院校文本挖掘、 自然语言处理、 大数据商务分析等相关学科的本科生和研究生参考使用;
也可供企业网络爬虫开发人员参考使用。
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。
版权所有,侵权必究。
图书在版编目( CIP)数据
网络数据采集技术: Java网络爬虫实战 / 钱洋,姜元春著 . —北京:电子工业出版社, 2020.1
ISBN 978-7-121-37607-8
Ⅰ. ①网… Ⅱ. ①钱… ②姜… Ⅲ. ①J AVA语言-程序设计 Ⅳ. ①TP312.8
中国版本图书馆 CIP数据核字( 2019)第219551号
责任编辑:林瑞和 特约编辑:田学清
印 刷:
装 订:
出版发行:电子工业出版社
北京市海淀区万寿路 173信箱 邮编:100036
开 本:720×1000 1/16 印张:23.75 字数:478.8千字
版 次:2020年1月第1版
印 次:2020年1月第1次印刷
定 价:79.00元
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发
行部联系,联系及邮购电话: (010)88254888,88258888。
质量投诉请发邮件至 zlts@phei.com.cn,盗版侵权举报请发邮件到 dbqq@phei.com.cn。
本书咨询联系方式: 010-51260888-819,faq@phei.com.cn。
前言
近几年,网络空间大数据( Big Data)已成为各领域研究的热门话题。在企业应
用方面,天猫利用海量的用户数据挖掘年轻消费者偏好,并将用户偏好反馈给手机研
发部门,将其用于手机设计; 汽车之家利用平台中用户生成的大数据对用户进行画像,
在此基础上开展个性化营销。在 学术界,很多领域的学者针对大数据衍生出的新问
题开展学术研究,如大数据驱动的客户洞察、大数据驱动的个性化推荐、大数据
驱动的管理决策等。
在网络大数据环境下,数据采集尤为重要。因此,很多企业都提供了(高级)数
据采集工程师的职位。对于很多
《网络数据采集技术——Java网络爬虫实战》.pdf