数据科学技术与应用——基于Python实现(第3版)
定 价:45 元
- 作者:宋晖
- 出版时间:2026/1/1
- ISBN:9787121520761
- 出 版 社:电子工业出版社
- 中图法分类:TP274;TP312.8
- 页码:208
- 纸张:
- 版次:01
- 开本:16开
-
商品库位:
本书内容涵盖数据科学、大数据和数据智能的基础知识,围绕数据科学的工作流程,详细介绍了从数据中获取知识的方法和技术,包括数据采集、数据整理与探索、数据可视化和数据建模预测等。本书介绍了基于人工智能技术实现文本、图像、语音、序列等多模态数据分析的方法,引入了大模型辅助数据分析、数据智能体等新技术。全书设计收集了多个数据应用案例,采用Python语言及相关科学计算工具包实现数据分析过程,通过实际案例帮助读者培养数据思维,进而能够运用统计学、人工智能等先进技术驱动数据来解决实际问题。 本书配套资源丰富,各章均配有综合练习题和一定数量的思考与练习,扫描二维码可以阅读相关文档或观看讲解视频,登录华信教育资源网可以下载电子课件、教学和实验案例文件以及参考答案等。
宋晖,博士,教授,长期从事Web数据挖掘、机器学习和智能信息处理方面的研究和教学工作,主持完成多项数据挖掘、智能分析和信息系统的研发,在数据科学方向有深厚的理论基础以及丰富的实践经验。
第1章 数据科学基础 1
1.1 数据科学概述 1
1.1.1 数据思维 1
1.1.2 数据科学的知识结构 3
1.1.3 数据科学的工作流程 4
1.2 数据科学的关键技术 5
1.2.1 数据采集 5
1.2.2 数据预处理 7
1.2.3 数据存储与管理 8
1.2.4 数据分析 9
1.3 大数据与数据智能 9
1.3.1 大数据与数据科学 9
1.3.2 人工智能与数据科学 10
1.3.3 数据智能 11
1.4 Python数据分析工具 12
1.4.1 科学计算集成环境 12
1.4.2 Python编译环境 13
1.4.3 Jupyter Notebook 13
1.5 Python语言基础 15
1.5.1 常用数据类型 15
1.5.2 流程控制 17
1.5.3 函数和方法库 19
综合练习题 20
第2章 多维数据结构与运算 21
2.1 多维数组对象 21
2.1.1 多维数组(张量) 21
2.1.2 一维数组对象 22
2.1.3 二维数组对象 24
2.1.4 创建多维数组的常用函数 26
2.2 多维数组运算 28
2.2.1 基本算术运算 29
2.2.2 函数和矩阵运算 30
2.2.3 随机数生成函数 32
2.3 案例:随机游走轨迹模拟 33
综合练习题 36
第3章 数据汇总与统计 37
3.1 统计的基本概念 37
3.1.1 统计的含义 37
3.1.2 常用统计量 38
3.2 pandas数据结构 39
3.2.1 Series对象 40
3.2.2 Series对象的数据访问 41
3.2.3 DataFrame对象 43
3.2.4 DataFrame对象的数据访问 44
3.3 数据文件的读/写 48
3.3.1 CSV文件和TXT文件 48
3.3.2 Excel文件 50
3.4 数据清洗 51
3.4.1 缺失数据处理 52
3.4.2 去除重复数据 54
3.5 数据规整化 55
3.5.1 数据合并 55
3.5.2 数据排序 57
3.6 统计分析 59
3.6.1 通用函数与运算 59
3.6.2 统计函数 60
3.6.3 相关性分析 62
3.6.4 案例:问卷调查反馈表分析 63
综合练习题 65
第4章 数据可视化 67
4.1 Python绘图基础 67
4.1.1 认识基本图形 67
4.1.2 pandas快速绘图 67
4.1.3 Matplotlib精细绘图 69
4.2 可视化数据探索 74
4.2.1 绘制常用图形 74
4.2.2 绘制复杂统计图表 86
4.2.3 使用pyecharts绘制交互式图表 88
综合练习题 91
第5章 机器学习建模分析 94
5.1 机器学习概述 94
5.1.1 机器学习与人工智能 94
5.1.2 Python机器学习方法库 96
5.2 回归分析 96
5.2.1 回归分析原理 96
5.2.2 回归分析实现 97
5.2.3 回归分析性能评估 99
5.3 分类分析 102
5.3.1 分类学习原理 102
5.3.2 决策树 103
5.3.3 贝叶斯算法 107
5.4 聚类分析 111
5.4.1 聚类任务 111
5.4.2 K-means算法 112
5.4.3 聚类性能评估 115
5.5 数据降维 117
5.5.1 数据降维方法 117
5.5.2 主成分分析 118
5.6 集成学习 120
5.6.1 随机森林算法 121
5.6.2 梯度提升机类算法 121
5.6.3 集成学习建模分析 122
综合练习题 124
第6章 神经网络与深度学习建模分析 125
6.1 神经网络概述 125
6.1.1 神经元与感知器 125
6.1.2 神经网络模型 126
6.1.3 神经网络分类实现 127
6.2 深度学习 130
6.2.1 深度学习的基本原理 130
6.2.2 深度学习框架Keras 131
6.2.3 深度学习建模分析实例 133
综合练习题 135
第7章 多模态数据分析 136
7.1 文本数据分析 136
7.1.1 文本处理的常见任务 136
7.1.2 中文分词和词性标注 137
7.1.3 文本向量化表示 138
7.1.4 案例:垃圾邮件识别 141
7.2 时序数据分析 146
7.2.1 时序数据的特性 146
7.2.2 时序数据分析方法 147
7.2.3 案例:温度预测 148
7.2.4 语音识别技术 151
7.3 图像数据分析 153
7.3.1 常见的图像数据分析任务 153
7.3.2 数字图像的表示 154
7.3.3 案例:CNN图像分类 156
7.4 大模型辅助数据分析 161
7.4.1 大模型概述 161
7.4.2 大模型辅助数据分析应用 163
7.4.3 多模态大模型 166
综合练习题 171
第8章 大数据技术 172
8.1 大数据概述 172
8.1.1 大数据的特点 172
8.1.2 大数据相关技术 174
8.1.3 大数据基础设施 175
8.2 分布式计算框架 177
8.2.1 Hadoop概述 177
8.2.2 MapReduce分布式计算 179
8.2.3 Spark生态系统 182
8.2.4 Spark分布式计算 183
8.3 分布式建模分析工具 184
8.3.1 Hadoop Mahout 184
8.3.2 Spark MLlib 185
8.3.3 Spark MLlib建模分析 186
综合练习题 187
第9章 数据智能 188
9.1 数据智能概述 188
9.1.1 数据智能技术框架 188
9.1.2 以数据为中心的人工智能 189
9.1.3 数据智能应用场景 190
9.2 数据智能体 191
9.2.1 AI Agents 191
9.2.2 数据智能体 195
综合练习题 197
参考文献 198