本书是一本介绍大数据分析方法与实践应用的教科书。全书共8章,在系统介绍大数据分析的基础知识、大数据的采集与预处理方法的基础上,重点介绍了多维数据统计分析、文本数据分析、空间数据分析、知识图谱分析等主流大数据分析方法的基本原理、操作步骤及实践案例,最后介绍了大数据可视化的常用工具及相应操作。 本书的特点是理论与实践相结合,注重知识的实用性,知识点覆盖面广,实践应用价值和可操作性强,既可作为高等院校和高职院校数据科学与大数据技术、大数据管理与应用、信息管理与信息系统、电子商务等专业数据分析相关课程的教材,也可以供从事信息分析与预测、研究与开发、统计与咨询等工作的企事业人员,以及其他学习大数据技术的读者阅读和参考。
虎陈霞,中国计量大学经济与管理学院副教授,理学博士,硕士研究生导师,2006年毕业于中国科学院研究生院。长期从事数据分析与数据挖掘相关教学工作,致力于农户生产行为与农业可持续发展、农业标准化等研究。主持在研国家社会科学基金项目1项,主持完成国家自然科学青年基金项目1项、各类省部级项目10余项。在《Agriculture, Ecosystems and Environment》《WETLANDS》《经济地理》等期刊发表论文20余篇、出版专著1部、参编教材1部。2018年赴美国佛罗里达大学访学一年。
第1章 大数据基础 1
1.1 什么是大数据 3
1.1.1 大数据的发展历程 3
1.1.2 大数据的定义 5
1.1.3 大数据的特征 6
1.1.4 大数据的结构类型 7
1.2 大数据对社会的影响 8
1.2.1 大数据决策成为一种新的决策方式 8
1.2.2 大数据成为提升国家治理能力的新途径 9
1.2.3 大数据应用促进信息技术与各行业的深度融合 10
1.2.4 大数据开发推动新技术和新应用不断涌现 10
1.3 大数据分析 10
1.3.1 大数据分析的概念 10
1.3.2 大数据分析的基本原理 12
1.3.3 大数据分析的对象 13
1.3.4 大数据分析的过程 16
1.3.5 大数据分析的价值 17
1.4 大数据分析技术与工具 18
1.4.1 大数据分析平台 18
1.4.2 大数据编程语言 20
1.5 本章小结 24
本章习题 24
第2章 大数据的采集 25
2.1 大数据的来源 27
2.1.1 感知系统数据 27
2.1.2 企业系统数据 27
2.1.3 互联网数据 28
2.1.4 政府系统数据 28
2.1.5 实验系统数据 28
2.2 网络数据的采集 28
2.2.1 网络爬虫原理 29
2.2.2 网络爬虫的类型 29
2.2.3 反爬机制 30
2.2.4 常用爬虫工具 31
2.2.5 网络爬虫Scrapy 32
2.3 日志数据的采集 38
2.3.1 流数据采集Kafka 38
2.3.2 日志采集系统Flume 40
2.4 轨迹数据的采集 43
2.4.1 基于GPS的轨迹数据采集 44
2.4.2 基于RFID的轨迹数据采集 44
2.5 数据库的采集 45
2.6 本章小结 45
本章习题 46
第3章 大数据的预处理 47
3.1 数据清洗 48
3.1.1 数据清洗的方式 49
3.1.2 数据清洗的内容 49
3.1.3 数据清洗的注意事项 50
3.2 数据集成 51
3.2.1 实体识别 51
3.2.2 冗余属性识别 51
3.3 数据转换 51
3.3.1 数据转换策略 51
3.3.2 规范化处理 52
3.4 本章小结 53
本章习题 53
第4章 多维数据统计分析 54
4.1 多维数据统计分析 55
4.1.1 多维数据统计分析的概念 55
4.1.2 多维数据统计分析的特点 56
4.2 相关分析 58
4.2.1 相关分析的概念 58
4.2.2 相关分析的类型 58
4.2.3 相关分析的步骤 59
4.3 线性回归分析 60
4.3.1 线性回归分析的概念 60
4.3.2 线性回归分析与相关分析的区别 61
4.3.3 线性回归分析的步骤 62
4.4 聚类分析 66
4.4.1 聚类分析的概念 66
4.4.2 聚类分析的类型 66
4.4.3 聚类分析的步骤 67
4.5 因子分析 70
4.5.1 因子分析的概念 70
4.5.2 因子分析的目的和作用 71
4.5.3 因子分析的步骤 71
4.6 本章小结 79
本章习题 79
第5章 文本数据分析 80
5.1 文本表示 81
5.1.1 文本表示的概念 81
5.1.2 文本表示的特征 81
5.1.3 文本表示的方法 81
5.1.4 向量空间模型 82
5.2 文本标引 85
5.2.1 标引 85
5.2.2 文本标引的基本方法 85
5.2.3 文本标引的具体应用 87
5.3 文本分类 88
5.3.1 分类和聚类 88
5.3.2 文本分类的概念 89
5.3.3 文本分类的主要方法 89
5.3.4 文本分类的基本步骤 90
5.4 文本聚类 91
5.4.1 文本聚类的概念 91
5.4.2 文本聚类的主要方法 91
5.4.3 文本聚类的基本步骤 94
5.5 主题分析 94
5.5.1 主题分析的概念 94
5.5.2 主题分析的基本原理 95
5.5.3 主题分析的方法 95
5.6 本章小结 104
本章习题 104
第6章 空间数据分析 105
6.1 空间数据采集 107
6.1.1 数据类型 107
6.1.2 数据采集 108
6.2 空间数据处理 110
6.2.1 投影坐标变换 110
6.2.2 数据格式转换 112
6.2.3 其他数据处理 113
6.3 矢量数据空间分析 114
6.3.1 邻域分析 114
6.3.2 叠加分析 116
6.4 栅格数据空间分析 117
6.4.1 距离分析 117
6.4.2 密度分析 118
6.5 空间统计分析 120
6.5.1 空间自相关分析 120
6.5.2 热点分析 122
6.6 本章小结 122
本章习题 122
第7章 知识图谱分析 124
7.1 什么是知识图谱 125
7.2 知识图谱技术框架 126
7.2.1 本体构建 127
7.2.2 知识抽取 129
7.2.3 知识融合 131
7.2.4 知识存储 132
7.3 本章小结 133
本章习题 133
第8章 大数据的可视化 134
8.1 可视化概述 135
8.1.1 可视化的含义 135
8.1.2 可视化的发展历程 136
8.1.3 可视化的作用 137
8.2 可视化分类 138
8.2.1 科学可视化 138
8.2.2 信息可视化 139
8.2.3 可视化分析 139
8.3 可视化工具 140
8.3.1 入门级工具 140
8.3.2 关系网络图工具 143
8.4 本章小结 154
本章习题 154
附录A 实验指导 156
实验1 运用网络爬虫采集网络数据 156
实验2 pandas数据清洗初级实践 157
实验3 基于聚类分析的在线问诊平台医生绩效评价 157
实验4 古诗文网站文本数据自动抽取 158
实验5 路网缓冲区分析 159
实验6 文献可视化分析 159
参考文献 161