本书基于Python 3.13.0,以项目教学的方式,循序渐进地讲解Python 数据分析的基本原理和具体应用的方法与技巧。全书分为6个项目,具体内容为Python数据分析基础、NumPy数据探索和预处理、Pandas数据处理与分析、Matplotlib 数据可视化、SciPy统计推断与探索性分析、Scikit-learn库模型与数据预处理。本书实例丰富、内容翔实、操作方法简单易学,不仅适合作为职业院校计算机与软件工程相关专业的教材,还可供从事数据分析相关工作的专业人士参考。
唐新宇,中共党员,博士,教授,高级软件开发工程师,现任计算机学院院长,曾获"全国优秀教师”称号,广东省"南粤优秀教师”称号。广东省二类品牌专业建设项目——计算机应用技术专业专业带头人,主持 2019年广东省教育教学成果奖,获"二等奖”。研究方向为软件技术、信息系统开发管理。主持省级教研项目4项、院级精品课程建设项目1项、院级教研教改项目5项;发表教研论文18篇,主编/参编出版教材5本。近年来先后指导学生5人次分别在省级、国家级软件设计大赛中获奖。现兼任肇庆市计算机学会常务理事兼计算机高级专家评审委员会副主任,广东东方亮培训学院特聘教授等职。
项目一 Python数据分析基础 1
任务一 认识Python数据分析工具 1
一、Python简介 2
二、Python 内置函数 6
三、下载和安装Python 7
四、安装Python库 11
任务二 PyCharm集成开发环境 13
一、下载和安装 PyCharm 13
二、新建PyCharm项目文件 17
三、新建PyCharm文件 19
四、PyCharm的编辑环境 19
五、PyCharm加载和导入模块 22
任务三 Python 数据类型 28
一、数据类型 28
二、输入 / 输出函数 32
三、运算符和基本数学函数 34
四、数据迭代输出 37
五、数据类型的转换 37
六、函数定义 40
任务四 Python 流程控制 41
一、表达式语句 42
二、顺序结构 43
三、选择结构 44
四、循环结构 47
五、条件表达式 48
六、流程控制命令 49
七、程序调试 50
项目思维导图 52
项目实操 52
实操一 用户输入并计算两数之和 52
实操二 打印正整数的阶乘 53
项目二 NumPy数据探索和预处理 54
任务一 NumPy数组操作 55
一、数组的数据类型 55
二、创建数组 58
三、数组的属性 62
四、数组的索引 63
任务二 NumPy数组运算 67
一、数值数组 67
二、数组的数学运算 72
三、深拷贝和浅拷贝 75
任务三 数据加载、统计与预处理 76
一、数据加载 76
二、数据统计 79
三、数据归一化和标准化 81
项目总结 85
项目实操 86
实操一 某市超市月度销售数据统计 86
实操二 分析城市PM2.5监测数据 88
项目三 Pandas数据处理与分析 91
任务一 Pandas数据采集 92
一、Series 对象 93
二、DataFrame 对象 97
三、电子表格文件 101
四、文本文件 106
五、数据集文件 108
任务二 Pandas 数据预处理与探索 112
一、数据清洗 112
二、数据转换 121
三、数据合并 123
四、数据提取 125
五、数据分类 128
六、数据排序 129
七、统计分组 133
任务三 Pandas 描述性统计分析 137
一、集中趋势分析 138
二、离散程度分析 139
三、相关性分析 140
四、频数分析 142
项目总结 143
项目实操 143
实操一 各城市房源数据分析 143
实操二 航班乘客数据分析 147
项目四 Matplotlib数据可视化 151
任务一 认识图表窗口 152
一、图表的基本组成 152
二、创建图形窗口 153
三、绘制折线图 154
四、创建子图 158
任务二 图表通用属性设置 160
一、图表属性参数 161
二、坐标系设置 162
三、图形标注 165
任务三 核心绘图函数 176
一、柱形图 176
二、直方图 179
三、饼图 181
四、散点图 183
五、面积图 185
六、箱形图 186
七、雷达图 188
项目总结 189
项目实操 190
实操一 体检数据可视化分析 190
实操二 人口统计数据可视化 192
项目五 SciPy统计推断与探索性分析 194
任务一 相关性分析 195
一、正态分布的相关分析 196
二、非正态分布的相关分析 198
任务二 卡方检验 200
一、正态性检验 200
二、方差齐性检验 205
三、拟合优度卡方检验 206
任务三 t检验 207
一、单样本t检验 208
二、独立样本t检验 209
三、配对样本t检验 211
任务四 方差分析 213
一、单因素方差分析 213
二、多因素方差分析 214
项目总结 216
项目实操 216
实操一 遗失的信件数据分析 216
实操二 血液黏稠度影响因素分析 218
项目六 Scikit-learn库模型与数据预处理 221
任务一 Scikit-learn库数据集 221
一、数据集加载 222
二、UCI机器学习库 225
三、数据集划分 227
任务二 数据预处理 228
一、处理异常值 228
二、特征离散化 233
三、特征选择 236
四、特征编码 241
五、特征缩放 245
任务三 分类算法 248
一、生成分类数据集 248
二、分类算法模型 249
三、二进制编码 251
四、评估分类模型的性能 253
任务四 回归算法 256
一、生成回归数据集 256
二、普通回归模型 258
三、多项式回归模型 262
项目总结 264
项目实操 264
实操一 葡萄酒数据集预处理分析 264