本书通过系统而全面的介绍,帮助读者深入理解和掌握图机器学习的基本原理、方法和技术;同时,通过丰富的案例和实践经验,展示了图机器学习在各个领域的应用价值和广阔前景。
本书基于斯坦福大学图机器学习CS224W课程的内容编写,结合作者自身和团队学生在图机器学习中的痛点和实践经验,重新梳理知识脉络,重点介绍图机器学习的相关知识,并对前沿的图机器学习会议论文和网络科学的最新发展趋势进行探讨与展望。
本书适合所有对图机器学习感兴趣的读者参考。
1.基于图机器学习方向经典课程——斯坦福大学图机器学习CS224w编写,获得Jure Leskovec教授的授权
2.配套资源丰富,助力学习——配有视频、PPT、代码
3.理论知识+前沿成果+实际应用——降低学习难度
武强,兰州大学副研究员。长期从事人工智能与复杂系统领域的交叉研究,参与并主
持多个重点科研项目,致力于推动前沿人工智能技术在交通、气象等领域的行业落地应用。多项成果已成功转化并应用于我国城市交通系统。在ICML、KDD、AAAI等国
际AI会议及Future Generation Computer Systems(FGCS)、Knowledge-Based
Systems(KBS)等期刊发表论文20余篇。曾荣获谷歌“全球机器学习开发者专家”
(Google Developer Expert,GDE)称号。著有《人工智能技术基础》《元宇宙中的硬科技》等图书。
吕琳媛,中国科学技术大学教授,“中国青年女科学家奖”“科学探索奖”获得者。
长期从事复杂系统与复杂网络领域的研究,发表学术论文100余篇,谷歌学术引用近2
万次。2019年入选《麻省理工科技评论》“中国35岁以下科技创新35人”,2020年获“系统科学与系统工程科学技术奖——青年科技奖”,2022年获Erd?s–Rényi Prize奖。出版《链路预测》《重塑:信息经济的结构》《网络渗流》《反常识》等图书。
第 1章 引言 1
1.1 图机器学习概述 2
1.1.1 为什么需要图机器学习 2
1.1.2 图机器学习的分类 3
1.2 图机器学习应用 5
1.3 图机器学习任务 8
1.3.1 节点预测 8
1.3.2 链接预测 8
1.3.3 整图预测 9
1.4 图机器学习展望 9
1.5 本章小结 10
1.6 参考文献 10
第 2章 图机器学习基础 12
2.1 图论基础 13
2.1.1 基本概念 13
2.1.2 表示方法 15
2.1.3 节点重要性指标 16
2.1.4 异质图 20
2.1.5 图生成模型 22
2.1.6 网络子图 28
2.1.7 网络社区 30
2.2 机器学习基础 34
2.2.1 感知机 34
2.2.2 深度学习 35
2.2.3 激活函数 36
2.2.4 损失函数和梯度下降 37
2.2.5 反向传播 39
2.3 本章小结 39
2.4 参考文献 39
第3章 基于图基础结构特征的图机器学习 41
3.1 图基础结构特征与图机器学习 42
3.2 基于节点特征的图机器学习 43
3.2.1 用聚类系数表示节点特征 43
3.2.2 用图元向量表示节点特征 44
3.3 基于链接特征的图机器学习 46
3.3.1 基于距离的特征 46
3.3.2 局部邻域重叠 47
3.3.3 全局邻域重叠 48
3.4 基于整图特征的图机器学习 49
3.4.1 基于图内核的表示方法 49
3.4.2 基于图元特征的表示方法 49
3.4.3 基于WL内核的表示方法 50
3.5 本章小结 53
3.6 参考文献 53
第4章 图嵌入表示 54
4.1 为什么需要图嵌入 55
4.2 图嵌入的编/解码架构 56
4.3 节点嵌入 57
4.3.1 浅层嵌入 57
4.3.2 随机游走嵌入 58
4.3.3 有偏随机游走嵌入 60
4.4 整图嵌入 62
4.4.1 求和法 62
4.4.2 虚拟节点法 63
4.4.3 匿名游走嵌入 63
4.4.4 可学习游走嵌入 64
4.4.5 整图嵌入的应用 65
4.5 本章小结 65
4.6 参考文献 66
第5章 图矩阵分解 67
5.1 矩阵分解与节点嵌入 68
5.1.1 矩阵分解 68
5.1.2 矩阵分解与随机游走的局限性 69
5.2 PageRank算法 70
5.2.1 PageRank算法背景 70
5.2.2 PageRank矩阵表示 71
5.2.3 PageRank与随机游走 72
5.3 PageRank计算和优化 73
5.3.1 幂迭代法 73
5.3.2 PageRank存在的问题 73
5.3.3 PageRank算法的局限性 74
5.3.4 个性化PageRank和带重启的随机游走 75
5.4 本章小结 76
5.5 参考文献 77
第6章 消息传递与节点分类 78
6.1 网络关联与集体分类 79
6.1.1 网络关联 79
6.1.2 集体分类 80
6.2 关系分类 81
6.3 迭代分类 83
6.3.1 迭代分类定义 83
6.3.2 迭代分类方法 83
6.3.3 迭代分类过程举例 84
6.4 信念传播 85
6.4.1 信念传播定义 86
6.4.2 信念传播过程 86
6.4.3 信念传播的优点和不足 87
6.5 矫正与平滑 87
6.5.1 C&S方法介绍 88
6.5.2 用C&S方法处理节点预测问题 88
6.6 本章小结 92
6.7 参考文献 92
第7章 图神经网络研究思路与经典模型 93
7.1 图神经网络的研究思路 94
7.1.1 图神经网络基础 94
7.1.2 图神经网络方法 97
7.1.3 图神经网络训练 98
7.2 图神经网络的结构 99
7.2.1 网络结构 100
7.2.2 批量标准化 100
7.2.3 Dropout方法 101
7.3 经典图神经网络:图卷积神经网络 102
7.3.1 GCN的空域理解 102
7.3.2 图傅里叶变换 104
7.3.3 图卷积神经网络的谱域解释 105
7.4 经典图神经网络:GraphSAGE和GAT 107
7.4.1 GraphSAGE 107
7.4.2 GAT 108
7.5 代码实践 109
7.6 本章小结 111
7.7 参考文献 111
第8章 图神经网络设计 112
8.1 多层图神经网络设计 113
8.1.1 过度平滑问题的产生 113
8.1.2 过度平滑的解决思路 113
8.2 图增强设计 115
8.2.1 图特征增强 115
8.2.2 图结构增强 116
8.3 图神经网络表达能力设计 118
8.3.1 图神经网络表达能力概述 119
8.3.2 GCN和GraphSAGE的表达能力分析 120
8.4 图同构网络模型 122
8.4.1 重集上的单射函数 122
8.4.2 GIN模型设计 122
8.4.3 GIN模型与WL图内核的联系 123
8.5 本章小结 124
8.6 参考文献 125
第9章 图神经网络训练 126
9.1 图神经网络预测头设置 127
9.1.1 节点级别任务 127
9.1.2 链接级别任务 128
9.1.3 图级别任务 128
9.2 图神经网络训练基础条件 130
9.2.1 损失函数 130
9.2.2 评估函数 131
9.3 图神经网络训练流程 134
9.3.1 数据集划分 134
9.3.2 GNN训练流程 137
9.3.3 GNN设置和调试 137
9.4 代码实践 138
9.4.1 数据介绍 138
9.4.2 多层 GNN 模型实现 139
9.4.3 训练和测试过程 141
9.5 本章小结 143
9.6 参考文献 143
第 10章 图神经网络优化 144
10.1 图神经网络的局限性 145
10.1.1 结构识别缺陷 145
10.1.2 位置识别缺陷 146
10.1.3 图同构测试限制GNN的表达能力上限 147
10.2 图神经网络的优化思路 147
10.2.1 基于位置感知的GNN优化 148
10.2.2 基于身份感知的GNN优化 149
10.3 图神经网络的鲁棒性分析 153
10.3.1 深度学习的鲁棒性 153
10.3.2 GNN的鲁棒性 153
10.4 本章小结 156
10.5 参考文献 157
第 11章 大规模图神经网络 158
11.1 GNN在大规模网络中的应用 159
11.1.1 大规模图应用场景 159
11.1.2 大规模图应用问题 159
11.2 邻域抽样模型 160
11.2.1 模型思路 161
11.2.2 重启随机游走算法 162
11.2.3 避免冗余计算的模型 162
11.3 Cluster-GCN模型 163
11.3.1 模型思路 164
11.3.2 模型训练 165
11.3.3 模型优化 166
11.4 Simplifying-GCN模型 166
11.4.1 模型思路 167
11.4.2 模型训练 167
11.5 本章小结 168
11.6 参考文献 168
第 12章 图神经网络在知识图谱中的应用 169
12.1 关系图卷积神经网络 170
12.1.1 R-GCN模型介绍 170
12.1.2 R-GCN的扩展性 172
12.1.3 R-GCN的应用 172
12.2 知识图谱初步 174
12.2.1 知识图谱概念 174
12.2.2 知识图谱补全 175
12.3 知识图谱查询 179
12.3.1 基础查询 180
12.3.2 高级查询 181
12.4 知识图谱构建和存储 187
12.4.1 知识图谱构建 187
12.4.2 知识图谱存储 189
12.5 本章小结 190
12.6 参考文献 190
第 13章 图神经网络在网络科学领域的应用 191
13.1 深度图生成模型 192
13.1.1 深度图生成模型初步 192
13.1.2 GraphRNN图生成模型 194
13.1.3 图生成模型的评估和优化 197
13.2 基于图神经网络的子图挖掘 201
13.2.1 子图嵌入表示 201
13.2.2 识别高频子图结构 204
13.3 基于图神经网络的社区发现 206
13.3.1 Louvain算法 206
13.3.2 重叠社区检测算法BigCLAM和NOCD 210
13.4 本章小结 215
13.5 参考文献 215
第 14章 图神经网络在推荐系统和自然语言处理中的应用 216
14.1 图神经网络与推荐系统 217
14.1.1 推荐系统概述 217
14.1.2 基于图节点嵌入的推荐模型 218
14.1.3 基于协同过滤的GNN推荐模型 220
14.1.4 大规模图神经网络推荐模型PinSAGE 225
14.2 图神经网络与自然语言处理 227
14.2.1 自然语言处理概要 227
14.2.2 NLP中图的构建与处理 230
14.2.3 基于图的编码器-解码器模型 233
14.2.4 图在自然语言处理中的具体应用 235
14.3 本章小结 238
14.4 参考文献 239
第 15章 图神经网络在自然科学研究中的应用 242
15.1 图神经网络在物理学中的应用 243
15.1.1 图神经网络重新发现万有引力定律 243
15.1.2 用图神经网络实现复杂物理世界的仿真模拟 244
15.2 图神经网络在生物化学和医疗领域的应用 245
15.2.1 GNN辅助药物发现 246
15.2.2 GNN预测蛋白质折叠结构 248
15.2.3 GNN辅助医疗诊断 250
15.2.4 GNN与天气预报 251
15.3 本章小结 252
15.4 参考文献 252
第 16章 总结和展望 253
16.1 图机器学习模型及应用 254
16.1.1 图机器学习模型总结 254
16.1.2 图机器学习应用总结 254
16.2 图机器学习未来展望 255
16.2.1 预训练图神经网络 255
16.2.2 双曲图神经网络 255
16.2.3 图机器学习与其他技术的结合 256