本书全面系统地介绍了机器学习的基础理论、经典算法与实际应用,适合初学者和有一定基础的读者。全书分为两大部分:第一部分涵盖机器学习的基本概念、数学基础、数据预处理与特征工程,以及模型评估与选择;第二部分深入讲解线性模型、支持向量机、决策树、贝叶斯分类器等经典算法,并提供丰富的案例与Python代码示例。
刘雪飞,博士,教授,博士生导师,全国21届青年岗位能手,贵州省第二届"最美劳动者”,贵州省教育厅功能材料与器件科技创新团队带头人,贵州省高层次创新人才,贵州省青年拔尖人才,贵州省集成电路学会副理事长兼秘书长,主要从事新能源材料相关理论以及基于机器学习、深度学习在能源材料领域的算法开发和应用研究,目前以第一或通讯作者在国内外核心期刊发表SCI学术论文60余篇,主持国家及省厅级项目多项,主持省级金课1门;参编教材1部,获得贵州省自然科学二等奖1项,省级教学成果三等奖1项、贵州省教学创新大赛二等奖2项。
目 录
第1章 机器学习概述 1
1.1 什么是机器学习 1
1.2 机器学习的主要类型 2
1.2.1 监督学习 2
1.2.2 无监督学习 2
1.2.3 半监督学习 3
1.2.4 强化学习 3
1.3 机器学习的应用领域 4
1.3.1 图像识别 4
1.3.2 数据分析 4
1.3.3 推荐系统 4
1.4 机器学习的发展历程与当前趋势 4
1.4.1 机器学习的发展历程 4
1.4.2 机器学习的当前趋势 6
1.5 习题 7
第2章 数学基础 8
2.1 线性代数基础 8
2.1.1 向量、矩阵与张量 9
2.1.2 矩阵运算 12
2.1.3 特征值与特征向量 17
2.2 概率论与统计学 18
2.2.1 基本概率理论 19
2.2.2 条件概率与贝叶斯定理 22
2.2.3 概率分布与极大似然估计 23
2.3 优化与梯度 28
2.3.1 梯度下降法 28
2.3.2 最优化问题与收敛性 30
2.4 习题 33
第3章 数据预处理与特征工程 35
3.1 数据清理 35
3.1.1 缺失值处理 35
3.1.2 异常值检测与处理 36
3.2 数据规范化与离散化 38
3.2.1 数据规范化 38
3.2.2 数据离散化 39
3.3 特征选择与提取 40
3.3.1 过滤式特征选择 41
3.3.2 包裹式特征选择 44
3.3.3 嵌入式特征选择 44
3.3.4 特征提取 45
3.4 类别变量的编码方法 47
3.5 习题 48
第4章 模型评估与选择 49
4.1 分类模型评估指标 49
4.1.1 准确率、精确率、召回率和F1分数 49
4.1.2 ROC曲线与AUC 52
4.2 聚类模型评估指标 55
4.2.1 内部评估指标 55
4.2.2 外部评估指标 57
4.3 数据集划分 58
4.3.1 训练集、验证集与测试集 58
4.3.2 数据集分割 59
4.4 习题 61
第5章 回归模型 63
5.1 线性回归与多项式回归 63
5.1.1 最小二乘法及其推导 64
5.1.2 多元线性回归 66
5.1.3 矩阵方法下的线性回归 67
5.1.4 多项式回归 68
5.1.5 回归模型评估(R2、MSE等) 68
5.2 逻辑回归 70
5.2.1 二分类与多分类逻辑回归 70
5.2.2 逻辑回归的几何解释与权重分析 71
5.2.3 逻辑回归损失函数及参数优化 73
5.3 模型正则化 75
5.3.1 岭回归(L2正则化) 76
5.3.2 LASSO回归(L1正则化) 77
5.3.3 ElasticNet:L1与L2正则化结合 77
5.3.4 正则化对模型的影响 77
5.4 回归模型应用示例 77
5.4.1 示例背景与任务定义 78
5.4.2 数据处理的关键步骤 78
5.4.3 基于PyTorch的线性回归实现 78
5.4.4 结果分析与讨论 83
5.5 习题 84
第6章 支持向量机 85
6.1 线性SVM的基本原理 85
6.1.1 间隔最大化与支持向量 85
6.1.2 拉格朗日乘子法与对偶问题 88
6.1.3 线性SVM的模型优化 91
6.2 非线性SVM与核方法 91
6.2.1 核函数的概念与选择 91
6.2.2 高维特征空间与核方法的数学背景 92
6.2.3 非线性SVM的应用场景 93
6.3 支持向量回归 93
6.3.1 SVR的基本原理 94
6.3.2 Epsilon不敏感损失函数及其优化 94
6.3.3 SVR应用示例 95
6.4 习题 99
第7章 决策树与集成学习 101
7.1 决策树 101
7.1.1 决策树构建的基本过程及优缺点 101
7.1.2 信息增益与Gini系数 103
7.1.3 决策树剪枝与过拟合控制 109
7.1.4 样本不平衡问题与决策树的应用 110
7.2 集成学习概述 115
7.2.1 Bagging与随机森林 115
7.2.2 Boosting与AdaBoost 123
7.2.3 梯度提升树与极限提升树 130
7.2.4 随机森林回归应用示例 136
7.3 习题 141
第8章 贝叶斯分类器 143
8.1 朴素贝叶斯分类器 143
8.1.1 贝叶斯定理与条件独立假设 143
8.1.2 高斯朴素贝叶斯与伯努利朴素贝叶斯 145
8.2 贝叶斯网络 150
8.2.1 贝叶斯网络的定义与构建 150
8.2.2 结构学习与参数估计 152
8.2.3 贝叶斯网络应用示例 155
8.3 习题 167
第9章 聚类分析 168
9.1 聚类基础与距离度量 168
9.1.1 聚类目标与应用场景 168
9.1.2 数学符号与术语定义 168
9.1.3 常见距离公式及其性质 169
9.2 基于划分的聚类方法—K-Means算法 170
9.2.1 目标函数与推导过程 170
9.2.2 迭代优化步骤 170
9.2.3 初始簇中心选择 171
9.2.4 算法的收敛性分析 171
9.3 层次聚类 173
9.3.1 自底向上层次聚类 174
9.3.2 距离更新策略 174
9.3.3 树状图可视化 175
9.4 密度聚类算法 177
9.4.1 DBSCAN的核心思想 177
9.4.2 邻域密度定义 177
9.4.3 核心点/边界点/噪声点判定 177
9.4.4 聚类形成流程 179
9.5 概率聚类模型 180
9.5.1 高斯混合模型(GMM) 180
9.5.2 EM算法推导 180
9.5.3 参数估计过程 184
9.6 聚类分析在材料深度学习中的应用 184
9.6.1 数据集处理 185
9.6.2 聚类分析示例 186
9.7 习题 193
缩略语表 194
参考文献 196