第 1 章 数据科学基础
1
数据科学是一门新兴科学,它以数据为中心,帮助我们理解数据,用数据进行创新,
推动社会发展。今天数据科学的研究应用不仅限于科研人员、企业机构,针对它的教学已
经拓展到大学甚至高中阶段,人们开始关注如何在工作、日常生活中应用数据科学。本章
介绍数据科学的基本概念及涵盖的专业领域,重点介绍数据科学的应用实例、数据科学的
工作流程,以及本书实现数据分析的工具。
1.1 数据科学概述
1.1.1 数据的力量
世界著名未来学家托夫勒曾说改变这个世界的力量有三种:暴力、知识、金钱,而如
今我们的世界正在被第四种力量改变,那就是数据!
今天随着计算机技术的发展,数据正日益凸显其价值。工业、农业、服务业等各行业
的行为以数据形式记录下来,人们的日常生活也被“数据化” ,越来越多的政府、企业意识
到数据正在成为组织最重要的资产,数据分析解读的能力成为组织的核心竞争力。数据分
析帮助政府、企业、个人更好地洞察事实,改善计划和决策,反过来分析结果又影响了组
织和个人的行为,甚至在一定程度上左右社会的未来。下面我们通过一些实例来认识今天
数据对社会方方面面的影响。
随着互联网和信息系统的发展,政府机构汇集了医疗健康、城镇交通、义务教育、税
收稽查、社会治理等各方面的数据。通过这些数据,政府能快速地获取关键、准确的信息,
改进各项政策和工作,节约政府部门的治理时间、人力成本,也更新了治理思路和模式。
【例1-1】 杭州公交借助共享单车轨迹改善公交线路。
杭州公交集团发现 286B路公交线路,在某两站每天聚集着数百辆、最多时上千辆共享单
车,杂乱地停在人行道、非机动车道甚至站台、行车道上。通过分析共享单车的出行轨迹,
杭州公交集团发现了单车主要社区来源,对 286B公交车的线路进行优化,调整了首末班时
间、发车频率,将很多需要骑行到车站的乘客直接送到了家门口。新线路缓解了区域出行
压力,也疏导了共享单车密集可能带来的道路隐患。
社会经济的发展和繁荣,依赖于全社会企业的总体经营状况。在企业日常运营中,每
数据科学技术与应用
2
天都产生大量的数据,对企业的运营和发展的决策起到重大作用。通过分析这些数据,企
业能够正确地了解目前经营现状、及时发现存在的隐患并分析原因,进一步对未来的发展
趋势进行预测,进而制定有效的计划、战略决策。
【例1-2】 金融机构借助信用卡人群数据分析,改善信贷决策。
根据新浪整理的市场数
《数据科学技术与应用》.pdf