随着信息技术的飞速发展,大数据已经成为驱动全球经济转型的关键因素。本书从大数据的基本概念入手,系统介绍了大数据架构、大数据预处理、大数据分析等核心技术,并深入探讨了这些技术在用户行为分析、金融与投资、消费领域及财税与贸易等领域的实际应用。本书内容不仅涵盖了技术层面的详细介绍,还通过丰富的案例分析展示了大数据在实践中的具体应用场景。 无论是希望理解大数据技术基础的学生,还是想在实际业务中应用大数据技术的从业者,本书都为其提供了全面且实用的指导,帮助读者掌握大数据在数字经济中的应用,为推动行业创新与发展提供有力支持。
陈媛,上海财经大学数字经济系讲席教授、博士生导师。近年来,主要研究方向涵盖数智技术应用、数字平台与数据产品、社交媒体与社会网络等领域。深耕产教融合,研究成果丰硕,在 Information Systems Research、Production and Operations Management 等UTD24期刊上发表多篇代表性论文,并出版多部专业教材。
目录
第1章 大数据概述1
1.1 大数据的时代背景1
1.1.1 信息化浪潮1
1.1.2 大数据及相关技术的发展历程2
1.1.3 我国的大数据战略5
1.2 大数据的概念及特征6
1.2.1 大数据的概念6
1.2.2 大数据的核心特征8
1.2.3 大数据的作用10
1.3 大数据体系13
1.3.1 大数据采集层14
1.3.2 大数据存储层16
1.3.3 大数据处理与分析层19
1.3.4 大数据应用层21
1.4 大数据面临的挑战23
1.4.1 个人隐私泄露问题23
1.4.2 数据安全问题24
1.4.3 信息茧房24
1.4.4 大数据“杀熟”25
参考文献26
第2章 大数据架构28
2.1 大数据处理架构Hadoop28
2.1.1 分布式系统28
2.1.2 Hadoop概述30
2.1.3 Hadoop生态系统32
2.2 分布式文件系统HDFS34
2.2.1 HDFS35
2.2.2 HDFS的体系结构38
2.2.3 HDFS的数据存储与数据读写39
2.3 分布式计算框架MapReduce42
2.3.1 MapReduce43
2.3.2 MapReduce的体系结构44
2.3.3 MapReduce的工作流程45
2.3.4 MapReduce运算实例49
2.4 对Hadoop架构的进一步探讨50
2.4.1 Hadoop的局限与优化50
2.4.2 HDFS2.0的新特性51
2.4.3 新一代资源管理调度框架YARN53
2.4.4 Hadoop生态系统中的其他功能组件56
参考文献59
第3章 大数据预处理60
3.1 大数据预处理概述60
3.2 数据清洗60
3.2.1 数据的完整性61
3.2.2 数据的一致性62
3.2.3 噪声数据处理62
3.2.4 缺失数据处理63
3.2.5 冗余数据清理64
3.3 数据集成65
3.3.1 数据集成的概念65
3.3.2 数据集成的分类66
3.3.3 数据集成的模式68
3.3.4 数据集成系统69
3.4 数据约简70
3.4.1 维度归约70
3.4.2 数据压缩72
3.4.3 数值归约72
3.4.4 概念分层73
3.5 数据变换73
3.5.1 数据平滑73
3.5.2 数据聚集75
3.5.3 数据离散化75
3.5.4 数据稀疏化76
3.5.5 数据规范化77
参考文献79
第4章 大数据分析80
4.1 大数据分析概述80
4.1.1 探索性数据分析80
4.1.2 模型建立84
4.1.3 模型评估86
4.2 回归模型89
4.2.1 回归模型概述89
4.2.2 线性回归90
4.2.3 支持向量回归92
4.2.4 岭回归和LASSO回归93
4.2.5 时间序列回归95
4.3 分类模型97
4.3.1 分类模型概述97
4.3.2 逻辑回归98
4.3.3 支持向量机99
4.3.4 决策树101
4.3.5 k近邻102
4.4 聚类模型104
4.4.1 聚类模型概述104
4.4.2 k均值聚类模型105
4.4.3 高斯混合模型107
4.4.4 DBSCAN108
4.5 对大数据分析技术的进一步探讨110
4.5.1 神经网络110
4.5.2 知识图谱114
4.5.3 图神经网络116
4.5.4 生成对抗网络118
参考文献119
第5章 大数据在用户行为分析中的应用120
5.1 大数据与用户行为分析概述120
5.1.1 大数据与用户行为分析120
5.1.2 大数据用户行为分析的应用场景121
5.1.3 大数据用户行为分析的数据采集与处理122
5.1.4 大数据用户行为分析的模型构建方法124
5.2 大数据与电商126
5.2.1 用户健康度分析126
5.2.2 用户路径分析127
5.2.3 用户漏斗分析128
5.2.4 用户生命周期分析129
5.3 大数据与流媒体(音频、视频、直播)131
5.3.1 用户注意力分析131
5.3.2 用户价值分析133
5.3.3 社交网络分析134
5.4 大数据与游戏136
5.4.1 用户分群137
5.4.2 用户流失预警139
5.4.3 异常行为监控141
参考文献145
第6章 大数据在金融与投资中的应用147
6.1 大数据与金融147
6.1.1 概述147
6.1.2 数据获取149
6.1.3 安全治理150
6.2 大数据与银行151
6.2.1 信贷风险管理152
6.2.2 客户身份识别与反洗钱155
6.2.3 区块链与数字货币157
6.3 大数据与保险160
6.3.1 产品设计与定价160
6.3.2 精准营销163
6.3.3 智能理赔与保险反欺诈165
6.4 大数据与投资167
6.4.1 量化投资与高频交易168
6.4.2 投资策略优化170
6.4.3 智能投顾173
参考文献176
第7章 大数据在消费领域中的应用178
7.1 大数据与消费领域概述178
7.1.1 传统消费领域与数字消费领域178
7.1.2 消费领域的大数据获取179
7.1.3 消费领域的大数据技术分类181
7.2 大数据与传统消费184
7.2.1 传统零售企业的数字化转型184
7.2.2 传统消费体验的多元化187
7.2.3 传统消费形式的变革191
7.3 大数据与数字消费193
7.3.1 数字文化消费创新193
7.3.2 数字消费体验升级196
7.3.3 数字消费形式新业态197
参考文献200
第8章 大数据在财税与贸易中的应用201
8.1 财税与贸易大数据概述201
8.1.1 财务大数据的组成201
8.1.2 税收大数据的组成203
8.1.3 贸易大数据的组成205
8.1.4 财税与贸易大数据的获取209
8.2 大数据与财务管理213
8.2.1 财务管理面临的挑战213
8.2.2 大数据对财务管理的影响215
8.2.3 财务大数据的分析方法216
8.2.4 大数据在财务管理中的应用218
8.3 大数据与税收管理220
8.3.1 大数据时代的税收管理新要求220
8.3.2 税收大数据的应用方向221
8.3.3 税收大数据的分析方法222
8.3.4 大数据在税收征管中的应用227
8.4 大数据与贸易229
8.4.1 大数据在跨境贸易监管中的应用230
8.4.2 大数据在贸易检验检疫中的应用232
参考文献235