本书全面探讨了机器学习中的**化理论、方法与实践,特别是在人工智能颠覆性发展的背景下, 包括但不限于监督学习、无监督学习、深度学习及强化学习等的应用。本书详细介绍了**性条件、 KKT 条件、拉格朗日对偶等核心**化理论,探讨了梯度下降法、邻近梯度法、牛顿法、拟牛顿方法 (BFGS 方法)、块坐标下降法、随机梯度类方法、增广拉格朗日方法、交替方向乘子法、双层规划等 经典**化方法,最后介绍了机器学习与**化深度融合的先进学习优化方法。通过本书的学习,读 者将能够全面理解机器学习中**化问题的建模和求解计算,及其在实际问题中的应用,为后续的机 器学习研究和实践奠定坚实的基础。在机器学习领域,**化方法不仅是实现模型学习的关键技术,也是提高模型性能、防止过拟合和增强泛化能力的基石。本书通过丰富的理论分析和实例演示,使读者能深入理解**化方法在机器学习中的核心作用,并为解决实际问题提供有力的工具。本书适合作为高等院校计算机、运筹学、计算数学、大数据、统计学等相关专业的教材,是一本适合广大人工智能爱好者的优秀读物。
在当今这个信息化快速发展的时代,机器学习已经成为人工智能领域中最受瞩目的研究方向之一。它的应用范围极为广泛,涵盖了计算机视觉、自然语言处理等多个重要领域,并展现出了巨大的潜力和价值。机器学习的核心在于通过算法对大量数据进行分析和学习,从而实现对未知数据的预测、分类和决策等功能。然而,要实现这些功能,必须首先解决机器学习驱动的最优化问题。作为数学和计算机科学的一个重要交叉分支,最优化方法为机器学习提供了坚实的理论基础和高效的求解手段。
本书旨在全面、深入地探讨面向机器学习的最优化理论基础、方法原理以及实际应用。通过系统的介绍和分析,使读者能够对最优化方法在机器学习中的作用有一个全面而深刻的理解,并能够熟练运用最优化方法解决实际机器学习问题。
本书第1章介绍机器学习中最优化问题的基本概念,包括监督学习、无监督学习、深度学习和强化学习等,阐述最优化问题在机器学习中的重要性和应用背景。通过具体实例,帮助读者理解机器学习中最优化问题的本质和挑战。第2章重点介绍最优化问题的基本理论,包括最优化问题基本形式、拉格朗日对偶理论、最优性条件等。通过详细的公式推导和案例分析,使读者掌握最优化问题的基本理论框架。第3章详细讲解梯度下降类方法,这是一种最基本的求解无约束最优化问题的方法。通过本章的学习,读者将能够掌握梯度下降类方法的基本原理和实现技巧。第4章介绍邻近梯度法及其扩展,这是一种处理非光滑目标函数的梯度下降法扩展方法。第5章介绍牛顿法和最具代表性的拟牛顿方法(BFGS方法),重点介绍这两种方法的原理、实现步骤以及优缺点。第6章介绍块坐标下降法,这是一种求解大规模最优化问题的有效方法,包括块坐标下降法的基本架构、子问题更新机制以及块坐标选择机制。第7章介绍随机梯度类方法,这是机器学习中应用最广泛的一种最优化方法。本章介绍经典随机梯度法、随机平均梯度法、方差减小随机梯度法等,重点分析它们在深度学习中的应用。第8章介绍增广拉格朗日方法和交替方向乘子法,这两种方法都是处理带线性等式约束的最优化问题的有效方法。
本章介绍这两种方法的基本原理、实现步骤以及在实际问题中的应用案例。第9章介绍双层规划,这是一种处理复杂优化问题的有效方法。通过本章的学习,读者将能够理解最优化与机器学习双层规划如何将复杂问题分解为两个层次进行求解,并提高求解效率。第10章介绍学习优化,这是一种利用机器学习技术来设计最优化方法的新兴技术。通过介绍学习优化的基本概念、基本框架以及具体方法,读者将能够理解学习优化如何根据训练数据自动设计最优化方法。最后,通过第11章的总结和展望,回顾本书的主要内容,并展望未来的发展趋势。通过本书的学习,读者不仅能够掌握机器学习中最优化方法的理论基础和实践技巧,还能够培养解决实际问题的能力,为未来的学习和研究打下坚实的基础。读者如果在理解知识的过程中遇到困难,建议不要在一个地方过于纠结,可以继续学习后续内容。通常来讲,通过逐渐深入的学习,前面有不懂或有疑惑的知识点自然会迎刃而解。另外,读者一定要动手实践,如果在实践过程中遇到困难,建议多查文档和资料,分析问题发生的原理,然后亲自动手解决问题。衷心希望本书能够成为广大读者的良师益友,帮助读者更好地理解和应用机器学习中最优化方法。同时,也欢迎读者提出宝贵意见和建议,共同推动面向机器学习的最优化方法的发展和应用。
编者
2025年4月
王祥丰 华东师范大学计算机科学与技术学院/数学科学学院教授,入选上海市青年科技英才启明星,担任上海市运筹学会副理事长、中国运筹学会算法软件与应用分会常务理事等。主要研究方向是智能体(最优化、强化学习、大语言模型驱动智能体)及应用等。曾获中国工业与应用数学学会落地应用成果、中国运筹学会青年科技奖提名奖、IEEE信号处理学会最佳论文奖、华为云技术合作优秀合作伙伴奖、上海开源创新卓越成果奖等。
蔡邢菊 南京师范大学教授,博士研究生导师。担任大规模复杂系统数值模拟部重点实验室(南京师范大学)副主任,中国运筹学会理事兼副秘书长,江苏省运筹学会理事长。主要从事最优化理论与算法、变分不等式、数值优化等领域的研究工作。先后主持多项国家级基金课题,获江苏省科技进步奖一等奖。
陈彩华 南京大学教授、博士生导师,国家优秀青年科学基金获得者,国家自然科学基金重大项目课题负责人,美国斯坦福大学访问学者,南京大学理学博士,新加坡国立大学联合培养博士。现任南京大学工程管理学院副院长、民建江苏省委大数据与人工智能委员会主任。曾获中国运筹学会青年科技奖、南京大学青年五四奖章、江苏省科学技术奖等奖励。
第1 章机器学习中的最优化问题......................................................................... 1
1.1 为什么学习最优化................................................................................. 2
1.2 机器学习中的最优化问题....................................................................... 3
1.2.1 监督学习.................................................................................... 3
1.2.2 无监督学习................................................................................. 4
1.2.3 深度学习.................................................................................... 6
1.2.4 强化学习.................................................................................... 7
1.3 本章小结............................................................................................... 8
第2 章最优化基础理论...................................................................................... 9
2.1 最优化问题基本形式.............................................................................. 9
2.2 拉格朗日对偶问题................................................................................ 12
2.3 最优性条件与KKT 条件........................................................................ 15
2.4 应用案例.............................................................................................. 21
2.4.1 Water-filling 问题....................................................................... 21
2.4.2 最小二乘问题............................................................................ 22
2.5 本章小结.............................................................................................. 23
2.6 习题.................................................................................................... 23
第3 章梯度下降类方法..................................................................................... 25
3.1 为什么需要利用梯度信息...................................................................... 25
3.2 梯度下降法.......................................................................................... 26
3.3 梯度下降法收敛性分析.......................................................................... 27
3.4 梯度类方法的一般形式.......................................................................... 29
最优化与机器学习
3.5 应用案例.............................................................................................. 30
3.5.1 最小二乘问题............................................................................ 30
3.5.2 逻辑回归问题............................................................................ 31
3.6 本章小结.............................................................................................. 31
3.7 习题.................................................................................................... 31
第4 章邻近梯度法及其扩展.............................................................................. 33
4.1 邻近算子.............................................................................................. 33
4.2 邻近梯度.............................................................................................. 40
4.3 邻近梯度法.......................................................................................... 41
4.4 广义邻近梯度法.................................................................................... 42
4.5 Nesterov 加速方法................................................................................. 43
4.6 应用案例.............................................................................................. 45
4.6.1 Lasso 问题................................................................................. 45
4.6.2 ?1-正则逻辑回归问题.................................................................. 46
4.7 本章小结.............................................................................................. 46
4.8 习题.................................................................................................... 46
第5 章牛顿法和BFGS 方法............................................................................. 49
5.1 牛顿法................................................................................................. 49
5.2 BFGS 方法........................................................................................... 50
5.3 有限内存的BFGS 方法......................................................................... 53
5.4 本章小结.............................................................................................. 54
5.5 习题.................................................................................................... 55
第6 章块坐标下降法........................................................................................ 56
6.1 块坐标下降法基本架构.......................................................................... 56
6.2 子问题更新机制.................................................................................... 57
6.3 块坐标选择机制.................................................................................... 58
6.4 系列块坐标下降法汇总.......................................................................... 60
6.5 应用案例.............................................................................................. 61
6.5.1 ?1-正则逻辑回归问题.................................................................. 62
6.5.2 非负矩阵分解问题...................................................................... 62
6.6 本章小结.............................................................................................. 64
6.7 习题.................................................................................................... 64
第7 章随机梯度类方法..................................................................................... 67
7.1 经典随机梯度法.................................................................................... 68
7.2 随机平均梯度法.................................................................................... 69
7.3 方差减小随机梯度法............................................................................. 70
7.4 随机梯度法的扩展讨论.......................................................................... 71
7.5 面向深度学习的随机优化方法................................................................ 72
7.5.1 动量加速随机梯度法.................................................................. 73
7.5.2 Adagrad 方法............................................................................. 73
7.5.3 Adadelta 方法............................................................................ 74
7.5.4 RMSprop 方法........................................................................... 74
7.5.5 Adam 方法................................................................................ 74
7.6 本章小结.............................................................................................. 75
7.7 习题.................................................................................................... 76
第8 章增广拉格朗日方法和交替方向乘子法....................................................... 78
8.1 对偶上升方法....................................................................................... 78
8.2 增广拉格朗日方法................................................................................ 79
8.3 交替方向乘子法.................................................................................... 80
8.4 应用案例.............................................................................................. 83
8.4.1 一致性最优化问题...................................................................... 83
8.4.2 带约束的凸优化问题.................................................................. 84
8.4.3 Lasso 问题................................................................................. 85
8.5 本章小结.............................................................................................. 85
8.6 习题.................................................................................................... 86
第9 章双层规划............................................................................................... 87
9.1 双层规划基础知识................................................................................ 87
9.2 基于梯度的逼近方法............................................................................. 89
9.2.1 BDA/BMO 方法........................................................................ 91
9.2.2 IAPTT-GM 方法....................................................................... 92
9.3 基于价值函数的算法............................................................................. 93
9.4 应用案例.............................................................................................. 94
9.4.1 超参优化问题............................................................................ 94
9.4.2 核心集选择问题......................................................................... 95
9.5 本章小结.............................................................................................. 96
9.6 习题.................................................................................................... 96
第10 章学习优化............................................................................................. 97
10.1 学习优化基本思想............................................................................... 97
10.2 学习优化基本框架............................................................................... 99
10.3 学习优化方法................................................................................... 100
10.3.1 无模型学习优化方法............................................................. 100
10.3.2 基于模型的学习优化方法....................................................... 102
10.4 应用案例.......................................................................................... 104
10.5 本章小结.......................................................................................... 106
10.6 习题................................................................................................. 106
第11 章总结.................................................................................................. 107
附录A 数学基础............................................................................................ 109
A.1 基础概念........................................................................................... 109
A.2 凸集与凸函数.................................................................................... 115
A.3 次梯度与次微分................................................................................. 122
A.4 共轭函数........................................................................................... 124
A.5 李普希茨连续可微与强凸性质............................................................. 130
A.6 随机变量及性质................................................................................. 137
A.7 习题.................................................................................................. 139
参考文献.......................................................................................................... 141