本书系统阐述了视觉语言模型的理论体系与技术实践。全书共15章,分为三大部分:基础综述(第1章)、关键技术(第2~14章)与未来展望(第15章)。
第一部分详解视觉语言模型的网络架构、预训练目标、评估方法及数据集体系,对比分析对抗训练、生成式预训练等范式,并建立性能评估基准。第二部分:第2章通过多个案例展示技术多样性;第3~5章深入探讨少样本学习、鲁棒微调等关键问题,提出约束线性探测等原创方法;第6~10章聚焦模型扩展性,涵盖InternVL亿级参数训练、VinVL视觉表征重构等前沿实践;第11~14章探索提示工程、异常检测等应用场景,包含MATCHER一次性分割等突破性方案。第三部分展望多模态生成、组合推理等未来方向。
本书系统性与前沿性并重,理论与实践结合,非常适合AI算法工程师、大模型及多模态人工智能研究者学习,也可用作高等院校相关专业的教材及参考书。
第1章 视觉任务的视觉语言模型综述 001~035
1.1 视觉语言模型摘要 001
1.2 视觉语言模型问题提出 001
1.3 视觉语言模型背景 003
1.3.1 视觉识别的训练范式 003
1.3.2 用于视觉识别的VLM 的开发 004
1.3.3 相关调查 006
1.4 VLM 基础 006
1.4.1 网络架构 006
1.4.2 VLM 预训练目标 007
1.4.3 VLM 预训练框架 009
1.4.4 评估设置和下游任务 010
1.5 数据集 011
1.5.1 预训练VLM 的数据集 012
1.5.2 VLM 评估数据集 013
1.6 视觉语言模型预训练 013
1.6.1 具有对抗目标的VLM 预训练 015
1.6.2 具有生成目标的VLM 预训练 017
1.6.3 带有对齐目标的VLM 预训练 019
1.7 VLM 迁移学习 020
1.7.1 迁移学习的动机 020
1.7.2 迁移学习的常见设置 020
1.7.3 常见的迁移学习方法 020
1.8 视觉大模型语言知识提炼 024
1.8.1 从VLM 中提取知识的动机 025
1.8.2 常识提炼方法 025
1.9 性能比较 027
1.9.1 VLM 预训练的表现 027
1.9.2 VLM 迁移学习的性能 030
1.9.3 VLM 知识提取的性能 032
1.10 未来发展方向 033
1.11 小结 035
第2章 视觉语言模型各种示例 036~065
2.1 通过模仿和自我监督学习创建多模态交互代理 036
2.2 DEPT:用于参数高效微调的分解式快速调谐 037
2.3 基于聚类掩蔽的高效视觉语言预训练 039
2.4 来自并行文本世界的LLM 训练的体现多模态智能体 041
2.5 在丰富的监督下加强视觉语言预训练 043
2.6 FairCLIP:在视觉和语言学习中强调公平 043
2.7 用于开放式目标检测的生成区域语言预训练 044
2.8 FROSTER:冻结的CLIP 是开放词汇动作识别的有力教师 048
2.9 Ins-DetCLIP:对齐检测模型以遵循人类语言指令 049
2.10 MMICL:通过多模态语境学习增强视觉语言模型的能力 052
2.11 学习提示分割任何模型 055
2.12 NEMESIS:视觉语言模型软性向量的归一化 057
2.13 非自回归序列到序列视觉语言模型 057
2.14 一个提示词足以提高预训练视觉语言模型的对抗鲁棒性 059
2.15 连续学习的快速梯度投影 060
2.16 检索增强对比视觉文本模型 062
2.17 TCP:基于文本的类感知可视化语言模型的提示调优 064
2.18 联合学习中视觉语言模型的文本驱动提示生成 065
第3章 大视觉语言模型的少数样本任务适配 066~079
3.1 少数样本任务适配概述 066
3.2 少数样本任务适配相关知识 066
3.2.1 少数样本任务适配历史渊源 066
3.2.2 相关工作概述 069
3.3 少数样本任务适配准备工作 069
3.3.1 对比视觉语言预训练大规模VLM 069
3.3.2 可迁移性 070
3.3.3 使用适配器进行高效迁移学习 070
3.3.4 现有少样本任务ETL 方法的陷阱 071
3.4 少样本任务拟议办法 071
3.4.1 重新审视线性探测 071
3.4.2 约束线性探测 072
3.4.3 线性探测的类自适应约束 073
3.5 少样本任务实验 075
3.5.1 安装程序 075
3.5.2 少样本任务测试结果 076
3.5.3 少样本任务消融实验 078
3.6 少样本任务限制 079
第4章 基于锚点的视觉语言模型鲁棒微调 080~091
4.1 锚点视觉语言模型鲁棒微调概要 080
4.2 锚点视觉语言模型鲁棒微调相关技术 080
4.2.1 锚点视觉语言模型鲁棒微调问题提出 080
4.2.2 锚点视觉语言模型鲁棒微调相关工作 082
4.3 锚点视觉语言模型鲁棒微调准备工作 083
4.3.1 符号摘要 083
4.3.2 对比视觉语言模型 083
4.4 锚点视觉语言模型鲁棒微调方法 084
4.4.1 问题设置 084
4.4.2 基于锚点的稳健微调概述 085
4.5 锚点视觉语言模型鲁棒微调实验 087
4.5.1 域转换下的评估 087
4.5.2 零样本学习下的评价 089
4.5.3 消融研究 090
4.5.4 锚的定性示例 091
4.6 小结 091
第5章 视觉语言模型的一致性引导快速学习 092~104
5.1 一致性引导快速学习摘要 092
5.2 一致性引导快速学习问题提出及相关工作 092
5.2.1 一致性引导快速学习问题提出 092
5.2.2 一致性引导快速学习相关工作 094
5.3 一致性引导快速学习方法 095
5.3.1 准备工作 095
5.3.2 协同学习:以一致性为导向的快速学习 096
5.4 一致性引导快速学习4 个实验 098
5.4.1 实验设置 098
5.4.2 新概括的基础 098
5.4.3 跨数据集评估 099
5.4.4 域泛化 100
5.4.5 消融研究 100
5.4.6 参数和计算复杂度 103
5.5 小结 104
第6章 InternVL:扩展视觉基础模型并对齐通用视觉语言任务 105~133
6.1 InternVL 扩展视觉基础模型并对齐摘要 105
6.2 扩展视觉基础模型并对齐问题提出及相关工作 105
6.2.1 扩展视觉基础模型并对齐问题提出 105
6.2.2 扩展视觉基础模型并对齐相关工作 107
6.3 扩展视觉基础模型并对齐拟议方法 108
6.3.1 总体架构 108
6.3.2 模型设计 109
6.3.3 对齐策略 111
6.4 扩展视觉基础模型并对齐实验 113
6.4.1 实施细节 113
6.4.2 视觉感知基准 113
6.4.3 视觉语言基准 114
6.4.4 多模式对话基准 118
6.4.5 消融研究 118
6.5 扩展视觉基础模型并对齐结论 119
6.6 扩展视觉基础模型并对齐补充材料 120
6.6.1 更多实验 120
6.6.2 更多消融研究 123
6.6.3 详细训练设置 124
6.6.4 预训练数据准备 127
6.6.5 SFT 的数据准备 131
第7章 提高大型视觉语言模型组合性的迭代学习 134~146
7.1 迭代学习摘要 134
7.2 迭代学习问题提出及相关工作 134
7.2.1 迭代学习问题提出 134
7.2.2 迭代学习相关工作 136
7.3 迭代学习方法 137
7.3.1 将视觉语言对抗学习重构为刘易斯信号博弈 137
7.3.2 用于规范表示的共享码本 137
7.3.3 训练中的迭代学习 138
7.4 迭代学习实验 140
7.4.1 实验设置 140
7.4.2 迭代学习提高了组合性 140
7.4.3 迭代学习不会损害识别 141
7.4.4 迭代学习分析 142
7.4.5 消融研究 145
7.5 小结 146
第8章 MATCHER:使用通用特征匹配一次性分割任何内容 147~158
8.1 特征匹配一次性分割摘要 147
8.2 特征匹配一次性分割问题提出及相关工作 147
8.2.1 特征匹配一次性分割问题提出 147
8.2.2 特征匹配一次性分割相关工作 149
8.3 特征匹配一次性分割方法 150
8.3.1 对应矩阵提取 150
8.3.2 提示生成 151
8.3.3 可控掩模生成 152
8.4 特征匹配一次性分割实验 153
8.4.1 实验设置 153
8.4.2 少样本点语义分割 153
8.4.3 单样本任务物体部分分割 154
8.4.4 视频对象分割 155
8.4.5 消融研究 156
8.4.6 定性结果 157
8.5 小结 158
第9章 视觉启发语言模型 159~172
9.1 视觉启发摘要 159
9.2 视觉启发问题提出及相关工作 159
9.2.1 视觉启发问题提出 159
9.2.2 视觉启发相关工作 161
9.3 视觉启发方法 162
9.3.1 准备工作 162
9.3.2 特征金字塔视觉提取器 163
9.3.3 深度视觉条件提示 165
9.4 视觉启发实验结果 166
9.4.1 实验细节 166
9.4.2 方法的数据效率 167
9.4.3 科学QA 168
9.4.4 图像字幕 169
9.4.5 视觉问答实验与问答任务 170
9.4.6 消融研究 170
9.5 小结 172
第10章 VinVL:重新审视视觉语言模型中的视觉表示 173~185
10.1 审视视觉表示摘要 173
10.2 审视视觉表示问题提出与相关工作 173
10.2.1 审视视觉表示问题提出 173
10.2.2 提高视觉语言的视觉能力 175
10.2.3 VL 任务的高效区域特征提取器 177
10.3 OSCAR+ 预训练 177
10.3.1 预训练语料库 178
10.3.2 预训练目标 178
10.3.3 预训练模型 179
10.3.4 适应VL 任务 179
10.4 审视视觉表示实验与分析 179
10.4.1 主要成果 179
10.4.2 消融分析 182
10.5 小结 185
第11章 视觉语境提示 186~200
11.1 视觉语境提示摘要 186
11.2 视觉语境提示问题提出与相关工作 187
11.3 视觉语境提示方法 190
11.3.1 分段任务的统一公式 190
11.3.2 视觉提示公式 191
11.3.3 快速采样 192
11.3.4 解码器查询公式 193
11.4 视觉语境提示实验 194
11.4.1 安装程序 194
11.4.2 通用分割和检测 194
11.4.3 视频对象分割 196
11.4.4 消融方法 197
11.5 视觉语境提示相关工程 199
11.5.1 通过文本提示进行视觉感知 199
11.5.2 通过图像示例进行视觉感知 199
11.5.3 通过视觉提示进行视觉感知 200
11.6 小结 200
第12章 ViTamin:在视觉语言时代设计可扩展的视觉模型 201~214
12.1 设计可扩展摘要 201
12.2 设计可扩展导言 201
12.3 设计可扩展相关工作 204
12.4 设计可扩展方法 204
12.4.1 CLIP 和训练协议 204
12.4.2 CLIP 环境中视觉模型的基准测试 205
12.4.3 ViTamin 的设计 207
12.5 设计可扩展实验 209
12.5.1 实施细节 209
12.5.2 主要成果 210
12.5.3 新的下游任务套件 213
12.6 小结 214
第13章 AnomalyCLIP:用于零样本异常检测的对象诊断快速学习 215~228
13.1 零样本异常检测诊断摘要 215
13.2 零样本异常检测诊断简介 215
13.3 零样本异常检测诊断的计算 217
13.4 AnomalyCLIP:对象- 语义提示学习 218
13.4.1 方法概述 218
13.4.2 对象- 语义文本提示设计 219
13.4.3 学习一般异常和正常提示 220
13.5 零样本异常检测诊断实验 222
13.5.1 实验设置 222
13.5.2 主要结果 222
13.5.3 消融研究 226
13.6 零样本异常检测诊断相关工作 228
13.7 小结 228
第14章 任何促使分布泛化的转变 229~241
14.1 分布泛化摘要 229
14.2 分布泛化导言 229
14.3 分布泛化基础知识 230
14.4 分布泛化任何移位提示 232
14.4.1 快速建模 232
14.4.2 训练和推理 233
14.5 分布泛化相关工作 235
14.6 分布泛化实验 236
14.6.1 各种分配变动的结果 237
14.6.2 消融研究 240
14.7 小结 241
第15章 探索视觉语言模型的前沿:当前方法和未来方向综述 242~264
15.1 视觉语言模型前沿摘要 242
15.2 视觉语言模型前沿导言 242
15.3 视觉语言模型类型 243
15.3.1 视觉语言理解 245
15.3.2 使用多模式输入生成文本 246
15.3.3 多模态输出与多模态输入 262
15.4 视觉语言模型未来发展方向 263
15.5 小结 264
参考文献 265~267