文库 T_工业技术

《网络数据采集技术——Java网络爬虫实战》.pdf

电子工业出版社 PDF   0页   下载0   2025-02-18   浏览5   收藏0   点赞0   评分-   393779字   10积分
《网络数据采集技术——Java网络爬虫实战》.pdf 第1页
《网络数据采集技术——Java网络爬虫实战》.pdf 第2页
《网络数据采集技术——Java网络爬虫实战》.pdf 第3页
《网络数据采集技术——Java网络爬虫实战》.pdf 第4页
《网络数据采集技术——Java网络爬虫实战》.pdf 第5页
《网络数据采集技术——Java网络爬虫实战》.pdf 第6页
《网络数据采集技术——Java网络爬虫实战》.pdf 第7页
《网络数据采集技术——Java网络爬虫实战》.pdf 第8页
《网络数据采集技术——Java网络爬虫实战》.pdf 第9页
《网络数据采集技术——Java网络爬虫实战》.pdf 第10页
C M Y CM MY CY CMY K Java网�爬虫从入�到��fy.pdf 1 2019/11/5 15:35:47 内 容 简 介 本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉 及的Java基础知识、 HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数 据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者 的动手实践能力。 同时,本书还介绍了 3种Java网络爬虫开源框架, 即Crawler4j、WebCollector 和WebMagic。 本书适用于 Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书, 供高等院校文本挖掘、 自然语言处理、 大数据商务分析等相关学科的本科生和研究生参考使用; 也可供企业网络爬虫开发人员参考使用。 未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。 版权所有,侵权必究。 图书在版编目( CIP)数据 网络数据采集技术: Java网络爬虫实战 / 钱洋,姜元春著 . —北京:电子工业出版社, 2020.1 ISBN 978-7-121-37607-8 Ⅰ. ①网… Ⅱ. ①钱… ②姜… Ⅲ. ①J AVA语言-程序设计 Ⅳ. ①TP312.8 中国版本图书馆 CIP数据核字( 2019)第219551号 责任编辑:林瑞和 特约编辑:田学清 印 刷: 装 订: 出版发行:电子工业出版社 北京市海淀区万寿路 173信箱 邮编:100036 开 本:720×1000 1/16 印张:23.75 字数:478.8千字 版 次:2020年1月第1版 印 次:2020年1月第1次印刷 定 价:79.00元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发 行部联系,联系及邮购电话: (010)88254888,88258888。 质量投诉请发邮件至 zlts@phei.com.cn,盗版侵权举报请发邮件到 dbqq@phei.com.cn。 本书咨询联系方式: 010-51260888-819,faq@phei.com.cn。 前言 近几年,网络空间大数据( Big Data)已成为各领域研究的热门话题。在企业应 用方面,天猫利用海量的用户数据挖掘年轻消费者偏好,并将用户偏好反馈给手机研 发部门,将其用于手机设计; 汽车之家利用平台中用户生成的大数据对用户进行画像, 在此基础上开展个性化营销。在 学术界,很多领域的学者针对大数据衍生出的新问 题开展学术研究,如大数据驱动的客户洞察、大数据驱动的个性化推荐、大数据 驱动的管理决策等。 在网络大数据环境下,数据采集尤为重要。因此,很多企业都提供了(高级)数 据采集工程师的职位。对于很多
《网络数据采集技术——Java网络爬虫实战》.pdf