《AI Python医学数据分析实践》是一本为零编程基础的数据分析人员而编写的科研用书,主要针对拟从事数据分析人员、医学生和医务工作者,是一本全面的医用数据分析与机器学习指南,内容涵盖了Python语法基础、数据的处理技巧、数据分析与挖掘、数据可视化等,并选用相应的医疗分析综合案例,帮助大家熟悉数据分析处理的过程。此外,本书还结合前沿大模型技术,详细介绍了如何利用AI大模型零代码辅助数据分析的方法。另外,本书还赠送PPT课件,方便读者学习和使用。
本书特色
? 《AI Python医学数据分析实践》以科研必知的极简Python语法为基础,逐步进阶到机器学习知识.
? 《AI Python医学数据分析实践》以TOP期刊论文为版本进行代码复现,了解机器学习在实际科研问题中的应用。
? 《AI Python医学数据分析实践》赠送PPT课件,方便读者学习和使用。
读者对象
《AI Python医学数据分析实践》专为编程基础薄弱的医学生和科研工作者打造。无论是初学者还是有一定基础的读者,《AI Python医学数据分析实践》都能帮助你快速提升机器学习实战能力,走在技术前沿。
前言
随着人工智能与大数据的兴起,各个领域与人工智能大数据的融合,使得很多领域有了较新的发展。特别是医疗健康行业,如智能医疗、医疗大数据等,都迎来了一个前所未有的崭新阶段。
本书以零编程基础的拟从事科研数据分析的人员为基础,包括医科院校学生、医院医务科研工作者,考虑到读者没有其他计算机基础或者计算机基础较薄弱,我们特别选择了目前比较流行的大数据处理语言Python。Python语言简单易学,入门快,只需掌握简单的语法即可上手。本书选用当前比较稳定的3.12版本。
无论您是刚接触数据分析的新手,还是希望提升机器学习技能的专业人士,本书都能为您提供宝贵的知识和实践指导,尤其对于医学生和医务科研工作者,通过多个具体案例和详细的代码解释,读者可以更好地理解和掌握所学知识,并将其应用到解决实际问题中。
书中的内容从基础的Python编程语法开始,逐步深入到复杂的数据分析技术和机器学习算法。每一章节都精心设计,旨在帮助读者构建坚实的理论基础,并提供丰富的实战案例,使读者能够将所学知识应用于解决实际问题中。
基础篇:介绍了Python编程的基础知识,包括语法基础、编辑器使用、数据类型、流程控制等。同时,还深入探讨了NumPy和Pandas这两个数据分析中不可或缺的库,包括数组和数据的操作、条件筛选、数据的增删改及排序等。
进阶篇:聚焦于机器学习的入门知识,包括分类、回归和聚类算法,以及心脏病风险预测分析的案例研究。这一部分还涉及模型的Shap解读与保存部署,帮助读者理解模型的工作原理并将其应用于解决实际问题中。
实战篇:提供了一个综合应用案例研究,基于期刊论文分析与复现,从读取数据、构建模型,到特征选择和模型重构让读者能够将理论知识应用于实际的数据分析项目中,增强实战能力。
高级AI篇:介绍了PandasAI库的使用方法及零代码AI编写编辑器Trae,实现了不编写一行代码由AI对第7章进行数据分析的全过程。
附录:提供了模型App部署和模型评估的额外信息,为读者提供了将模型部署到实际应用中的指导。
特别值得一提的是,书中不仅涵盖了数据处理和可视化的基本技巧,还详细介绍了如何使用NumPy和Pandas进行高效的数据操作,如何通过Matplotlib进行数据可视化,以及如何使用Shap值来解读模型,这些都是当前数据分析领域中的热点话题。
随着逐步深入阅读这本书,读者将发现作者不仅提供了理论知识,还提供了大量的代码示例和实战演练,能够帮助读者快速上手并深化理解。本书是数据分析和机器学习领域的宝贵资源。
本书的主要目的是帮助医学专业的本、硕、博学生学以致用,会使用Python对数据进行处理分析。
由于作者认知水平有限,书中可能存在错漏之处,恳请广大读者批评指正。
作者对零基础读者的忠告:务必跟着书本亲自上手敲写代码,至少第1章中的代码要亲自敲一遍,看书百遍不如上手一遍,以便更好地学习后续高级AI篇中的零代码操作。
余本国
2025年3月25日
于海口海南医科大学
余本国,博士、副教授、硕士研究生导师。2001年毕业于石河子大学数学系,同年到中北大学(原华北工学院)任教,2012年加拿大York University访问学者,2019年人才引进到海南医科大学任教。出版个人著作《感受加拿大游学周记》《Python数据分析基础》《基于Python的大数据分析基础及实战》《python在机器学习中的应用》《PyTorch深度学习入门与实战》《python数据分析:从零基础入门到案例实战》等十多部。
韩惠蕊:博士,2019年人才引进到海南医科大学任教,主要研究方向为机器学习与智能医学,获发明专利1项,发表SCI/EI论文十余篇,指导学生获多项和省级学科竞赛奖。
傅渝健:擅长医疗领域数据分析,专注于AI与数据科学技术分享,拥有过万 粉丝与百万 阅读量,致力于传递实用与前沿的智能技术知识。
目录
基 础 篇
第1章 Python语法基础 2
1.1?引言 2
1.2?Python编辑器 3
1.3 语法规范 5
1.4 数据类型 7
1.5 运算符 10
1.6 流程控制 11
1.6.1 选择结构 11
1.6.2 循环结构 12
1.7 常用函数 13
第2章 NumPy和Pandas 17
2.1 NumPy 17
2.1.1 数组的创建 17
2.1.2 数组的操作 21
2.1.3 条件筛选 23
2.2 Pandas 25
2.2.1 Series的创建与访问 25
2.2.2 DataFrame的创建与访问 27
2.2.3 条件筛选 30
2.2.4 数据的增删改 32
2.2.5 排序 35
2.2.6 索引重置 35
2.3 读存数据 37
2.3.1 读取数据 37
2.3.2 保存数据 40
2.4 Pandas其他操作 42
第3章 数据可视化Matplotlib 46
3.1 Matplotlib基本绘图 46
3.1.1 基本操作 47
3.1.2 中文符号的显示 51
3.2 绘图 51
3.2.1 饼图 52
3.2.2 散点图 53
第4章 数据处理 55
4.1 统计性描述 55
4.2 异常值处理 57
4.2.1 重复值的处理 57
4.2.2 缺失值的处理 58
4.3 数据列计算 60
4.3.1 对数据进行替换 60
4.3.2 数据分组 61
4.3.3 数据排序 62
第5章 基因序列查找与翻译 63
5.1 读取查找基因序列 63
5.2 翻译蛋白质序列 66
进 阶 篇
第6章 机器学习入门 70
6.1 分类算法 71
6.2 回归算法 74
6.3 聚类算法 76
6.4 常见的算法模型 78
第7章 心脏病风险预测分析 80
7.1 准备工作 80
7.2 数据读取与处理 81
7.3 模型建立与效果评价 82
7.3.1 决策树模型 82
7.3.2 随机森林模型 87
7.3.3 XGBoost模型 91
7.3.4 CatBoost模型 96
第8章 模型Shap解读与保存部署 102
8.1 Shap解读模型 102
8.1.1 Shap值计算 103
8.1.2 摘要图(Summary Plot) 104
8.1.3 Shap特征贡献图 106
8.1.4 依赖图(Dependence Plot) 107
8.1.5 力图(Force Plot) 108
8.1.6 热图(Heatmap) 109
8.2 模型保存 111
8.3 模型调用 111
第9章 胎儿健康多分类预测实现及模型评价 113
9.1 数据读取与处理 113
9.1.1 数据预处理编码 114
9.1.2 数据集划分 114
9.2 特征筛选 115
9.2.1 递归特征消除与交叉验证优化特征选择 115
9.2.2 递归特征消除与交叉验证结果可视化 116
9.3 模型构建 118
9.4 XGBoost模型预测与分类性能评估 119
9.5 XGBoost模型的混淆矩阵 120
9.6 宏平均ROC曲线 121
9.6.1 XGBoost模型的ROC曲线和宏平均AUC计算 122
9.6.2 宏平均ROC曲线绘制 122
9.7 Shap值计算及特征贡献解释 124
9.7.1 绘制模型特征贡献图 124
9.7.2 模型单样本解释瀑布图 127
第10章 帕金森病患者特征选择回归预测实现 130
10.1 数据准备 130
10.2 RF回归模型的创建与训练 131
10.3 特征重要性分析 133
10.4 特征选择 134
10.4.1 蒙特卡洛模拟和交叉