本书系统梳理了深度强化学习的核心理论、关键算法及其在智能控制、机器人技术和多智能体系统中的应用。全书涵盖强化学习的基本概念、深度强化学习的主要框架,以及多智能体强化学习的协同决策、任务分解与优化控制等前沿问题,并结合大量实验案例,深入探讨强化学习在飞行器控制、移动机器人导航与避障等领域的实践应用。
更多科学出版社服务,请扫码获取。
人工智能,深度学习2012.3任北京科技大学自动化学院院长,特聘教授,博士生导师;
2009.12起任东南大学自动化学院副院长;
2007-2009受聘国家自然科学基金委自动化学科项目主任
2011年获得国家杰出青年科学基金;
目前主持国家自然科学基金重大研究计划重点项目1项、教育部博士点基金2项、一院高校创新基金1项
目录
前言
第1章 绪论 1
1.1 强化学习发展历程 1
1.2 深度强化学习基础算法 2
1.2.1 基于值函数的深度强化学习 2
1.2.2 基于策略的深度强化学习 5
1.2.3 深度强化学习的应用与挑战 8
1.3 多智能体强化学习 11
1.3.1 多智能体强化学习难点问题 11
1.3.2 多智能体强化学习常用算法与结构 12
1.3.3 多智能体强化学习应用与挑战 16
1.4 本章小结 17
参考文献 18
第2章 强化学习基本概念与理论 25
2.1 智能体–环境交互模型 25
2.2 策略与值函数 26
2.3 基于值函数的强化学习算法 28
2.4 基于策略的强化学习算法 30
2.5 本章小结 33
参考文献 33
第3章 面向输入受限系统的深度强化学习 34
3.1 引言 34
3.2 问题描述 36
3.3 解算器–评价器结构与离轨策略学习算法 37
3.3.1 基于平方和的策略评价器 37
3.3.2 动作解算器 38
3.3.3 离轨策略学习算法 39
3.3.4 算法收敛性和策略最优性分析 41
3.4 仿真实验 48
3.4.1 一般线性系统的控制仿真 48
3.4.2 非线性振荡器的控制仿真 51
3.4.3 平衡车系统的控制仿真 54
3.4.4 二自由度机械臂系统的控制仿真 55
3.5 本章小结 59
参考文献 59
第4章 状态依赖输入约束的强化学习优化控制 62
4.1 引言 62
4.2 问题描述 63
4.3 动作映射机制 65
4.4 基于动作映射的强化学习框架 72
4.4.1 执行器–评价器网络设计 79
4.4.2 异策略学习算法 80
4.5 值函数的连续性分析 82
4.6 仿真实验 84
4.6.1 线性系统的控制仿真 85
4.6.2 输入受限系统的控制仿真 87
4.6.3 二自由度机械臂系统的控制仿真 90
4.7 本章小结 91
参考文献 92
第5章 自治切换系统的强化学习优化控制 94
5.1 引言 94
5.2 问题描述 95
5.3 算法设计及实现 97
5.3.1 精确 Q 学习算法 97
5.3.2 近似 Q 学习算法 98
5.3.3 算法执行过程 99
5.4 算法理论分析 101
5.4.1 近似值函数迭代算法回顾 101
5.4.2 目标函数连续性分析 101
5.4.3 算法收敛性分析 102
5.4.4 切换策略稳定性分析 103
5.5 仿真实验 104
5.5.1 仿真实验一 105
5.5.2 仿真实验二 107
5.5.3 仿真实验三 111
5.6 本章小结 117
参考文献 117
第6章 受控切换系统的强化学习优化控制 119
6.1 引言 119
6.2 问题描述 120
6.3 算法设计 121
6.3.1 混合 Q 学习算法 121
6.3.2 混合归一化优势函数算法 122
6.4 算法理论分析 124
6.4.1 HQL 算法特性分析 124
6.4.2 HNAF 算法特性分析 128
6.5 仿真实验 130
6.5.1 仿真实验一 130
6.5.2 仿真实验二 133
6.5.3 仿真实验三 135
6.6 本章小结 137
参考文献 137
第7章 基于任务分解的多智能体强化学习协同控制 138
7.1 引言 138
7.2 问题描述 140
7.3 基于任务分解的学习算法 140
7.3.1 值函数分解 141
7.3.2 基于任务分解的多智能体 Q 学习算法 142
7.3.3 基于任务分解的多智能体确定性策略梯度算法 146
7.4 仿真实验 151
7.4.1 仿真实验一 151
7.4.2 仿真实验二 154
7.4.3 仿真实验三 157
7.5 本章小结 160
参考文献 161
第8章 基于后继特征的多智能体迁移强化学习 163
8.1 引言 163
8.2 问题描述 164
8.3 基于后继特征的多智能体强化学习及任务迁移 165
8.3.1 基于后继特征的多智能体强化学习框架 166
8.3.2 基于后继特征的目标任务知识迁移方法 170
8.3.3 关于目标任务快速启动策略的理论分析 173
8.4 仿真实验 177
8.4.1 仿真实验环境介绍 177
8.4.2 奖励特征函数的设计 179
8.4.3 实验结果分析与讨论 180
8.5 本章小结 187
参考文献 188
第9章 基于邻居动作值函数的多智能体一致性控制 191
9.1 引言 191
9.2 问题描述 193
9.2.1 多智能体系统 193
9.2.2 最优控制 194
9.3 算法设计 196
9.3.1 基于邻居动作值函数的多智能体一致性算法 196
9.3.2 算法执行过程 198
9.4 收敛性分析 199
9.4.1 带领导者的多智能体系统:折扣因子γ∈ [0,1) 200
9.4.2 带领导者的多智能体系统:折扣因子γ= 1 202
9.4.3 无领导者的多智能体系统:折扣因子γ∈ [0,1] 204
9.4.4 稳定性分析 204
9.5 仿真实验 205
9.5.1 带领导者的多智能体系统控制仿真 206
9.5.2 无领导者的多智能体系统控制仿真 208
9.6 本章小结 210
参考文献 210
第10章 基于自学习通信多智能体强化学习的合作追捕 213
10.1 引言 213
10.2 合作追捕学习算法 215
10.2.1 环形拓扑网络结构下合作追捕学习算法 215
10.2.2 主从式线形拓扑网络结构下合作追捕学习算法 219
10.3 仿真实验 223
10.3.1 仿真环境描述 223
10.3.2 训练实施方式 225
10.3.3 实验结果与分析 227
10.4 本章小结 233
参考文献 233
第11章 强化学习在飞行器控制中的应用 236
11.1 引言 236
11.2 问题描述 238
11.3 积分补偿确定性策略梯度控制器 240
11.3.1 确定性策略梯度算法 241
11.3.2 带积分补偿的确定性策略梯度算法 243
11.3.3 四旋翼 DPG-IC 控制器设计 244
11.4 基于 DPG-IC 的两段式训练算法 247
11.4.1 离线训练阶段 247
11.4.2 在线训练阶段 249
11.5 仿真实验 249
11.5.1 训练和测试环境 250
11.5.2 离线训练过程与结果 251
11.5.3 离线控制策略实验和结果 254
11.5.4 在线训练实验和结果 260
11.6 本章小结 261
参考文献 261
第12章 强化学习在移动机器人导航与避障中的应用 264
12.1 引言 264
12.2 问题描述 266
12.3 模块化深度强化学习导航与避障算法 268
12.3.1 局部避障模块 269
12.3.2 全局导航模块 272
12.3.3 动作调度模块 273
12.4 仿真实验 275
12.4.1 深度双流 Q 网络局部避障训练与对比实验 276
12.4.2 导航模块离线训练与测试结果 280
12.4.3 模块化深度强化学习在线训练与对比测试结果 280
12.5 本章小结 285
参考文献 285
第13章 强化学习开源测试环境与算法库 288
13.1 引言 288
13.2 强化学习开源测试环境 288
13.2.1 OpenAI Gym 289
13.2.2 Unity ML-Agents Toolkit 289
13.2.3 PyBullet 290
13.2.4 DeepMind Control Suite 290
13.3 玄策强化学习开源算法库 291
13.3.1 软件概述 291
13.3.2 软件主要功能详解 294
13.3.3 软件使用说明 302
13.4 本章小结 305
第14章 总结与展望 306