本书全而且系统地呈现视觉大模型的理论基础、应用实践与未来发展趋势。开篇深入剖析视觉大模型内核——视觉Transformer模型,详述其基本原理、架构,涵盖注意力机制、位置编码、编码器-解码器架构等关键要素,同时细致解读自监督学习在视觉大模型中的应用,如对比学习、生成式学习、预测性学习等前沿方法,助力读者迅速把握视觉大模型精髓。在应用实践板块,书中依托丰富案例,详尽展示视觉大模型在图像分类、语义分割、目标检测等计算机视觉核心任务中的实战应用。不仅如此,书中还深入探讨视觉大模型训练与优化的关键考量因素,包括数据增强策略、正则化技术、知识蒸馏、迁移学习等,为读者提供实用的实践经验,助其在实际应用中高效运用视觉大模型。为了提升读者对视觉大模型的理解与实践能力,书中提供了大量代码示例,覆盖从基础模型搭建到复杂模型优化的全流程,读者可通过实践这些代码,深化对视觉大模型理论与应用的认知。本书受众广泛,既适配计算机、自动化、电子、通信、数学、物理等专业背景的研究生及高年级本科生,也契合欲从事或转型至人工智能与计算机视觉领域的专业技术人员。
前言
当手机相册能够精准地捕捉爱犬的每张丑照时,当街角的摄像头学会数清排队买奶茶的人数时,当手术机器人透过内窥镜辨识病灶的边界时——我们正站在一个视觉智能重构世界的临界点。视觉大模型如同数字时代的光学棱镜,将海量像素折射为可解析的语义光谱,而本书就是为你准备的解码手册。
在人工智能技术指数级进化的今天,视觉大模型已悄然成为推动产业变革的视觉基建。与传统视觉模型相比,它们不再是被程序设定的“像素会计”,而是进化成了具备认知弹性的“视觉通才”。从视觉Transformer打破卷积神经网络统治的破壁之举,到Swin Transformer在局部与全局视野间的精妙平衡,再到DETR用端到端范式重构目标检测的逻辑,这些突破不仅是算法架构的革新,更是人类对机器视觉认知范式的重新定义。
作为专注于视觉大模型的教材,本书以“深度理解—实战进化”为脉络,带你穿透技术迷雾,将从Transformer的注意力革命说起,揭示为何这种源于自然语言处理的机制,竟能让计算机像顶级策展人般理解图像的内在关联;通过剖析位置编码如何为像素矩阵注入空间知觉,逐步构建起视觉大模型的认知图谱。特别值得关注的是,本书独创“技术显微镜”与“产业望远镜”双重视角:前者带你深入模型架构的毛细血管,逐行解析视觉Transformer如何将图像切割为16×16的视觉词汇;后者带你俯瞰在前沿场景中,各种视觉大模型如何通过PyTorch一手掌控。确保你在理解“为什么”之后,能立即动手验证“怎么做”。
对于渴望深入技术腹地的开发者,本书是打开视觉大模型黑匣子的密钥;对于寻求人工智能赋能的行业决策者,这里藏着评估技术适配性的标尺;对于学术研究者,书中梳理的开放性问题与前沿方向或许就是下一个突破的灵感起点。期待这本书能成为你与智能视觉时代对话的“罗塞塔石碑”——当你合上最后一页时,那些曾令人望而生畏的数亿参数模型,终将化作可理解、可操控、可创新的认知拼图。
特别感谢中国科学院数学与系统科学研究院的杨墨轩同学、卡内基?梅隆大学的王玟雯同学、上海理工大学的鞠敏同学、中国科学院自动化研究所的李文涛同学、北京航空航天大学的付哲铭同学、天津科技大学的曾俊杨同学、中国石油大学(北京)的陈根秀同学、北京理工大学的张润展同学和张宸泽同学、中央民族大学的王怡文同学、中国林业大学的陈运同学、北京工业大学的史瑞泽同学及中山大学一位不方便透露姓名的同学对本书内容的审阅和贡献。同时,衷心感谢清华大学出版社的赵佳霓编辑在出版过程中的辛勤工作和宝贵建议。
让我们一起走进这个由像素和算法构成的奇妙宇宙,当你合上这本书时,那些曾令人眼花缭乱的视觉应用,或许就会变成你手中清晰可见的技术蓝图,而当我们凝视更远的未来——医疗影像分析将改写疾病筛查规则、工业级机器人将守护新型中国智造、航空航天系统将探索绘制星际航图、自动驾驶汽车将重新定义出行自由、量子视觉计算将突破经典感知枷锁——这些宏大叙事的技术基石,此刻正躺在你翻开书页的指尖。
资源下载提示
扫描目录上方的二维码可下载本书源码。
王书浩
2026年1月于北京
王书浩清华大学博士,清华大学交叉信息研究院博士后,现为透彻未来联合创始人与首席技术官,曾先后于百度、异构智能(NovuMind)、京东从事数据科学与人工智能研究,拥有国家发明专利20余项,并于NatureCommunications、ModernPathology、ICCV等顶级期刊/会议发表十余篇学术论文。曾获得2019年乌镇互联网峰会“30位新生代数字经济人才”精英奖、Year2022FallAsia-PacificSignalandInformationProcessingAssociationIndustrialDistinguishedLeaders、阿里云“看见新力量”2022年度人物。王伟毕业于中国人民大学,拥有概率论与数理统计硕士学位,现为透彻未来算法科学家,曾于清华大学电子工程系、中国科学院半导体研究所、中国石油勘探开发研究院从事深度学习基础理论探索与产业实践研究,并发表多篇学术论文;曾主持北京市自然科学基金1项,申请国家发明专利10余项,荣获“2017中国大数据人工智能创新创业大赛病理切片识别AI挑战赛”冠军。
目录
本书源码
第1章开启视觉大模型的大门
1.1深度学习在计算机视觉中的应用
1.2Transformer模型概要
1.3Transformer的发展历程
1.4Transformer在视觉任务中的应用
1.5自监督学习简介
第2章Transformer原理与架构
2.1注意力机制
2.1.1自注意力机制的数学原理
2.1.2QKV与注意力汇聚
2.1.3注意力评分与掩码
2.1.4多头自注意力
2.2位置编码
2.3Transformer架构
2.3.1残差与正则化
2.3.2FFN
2.3.3编码器与解码器
第3章Transformer在自然语言处理中的应用
3.1编码器
3.1.1BERT
3.1.2BERT的改进模型
3.2解码器
3.2.1GPT
3.2.2GPT的演进
3.3编码器与解码器结合
3.4Prompt与Chain of Thought
3.5Scaling Law
第4章Transformer在计算机视觉中的应用
4.1图像分类
4.1.1Vision Transformer
4.1.2Swin Transformer
4.1.3Mobile?Former
4.2图像分割
4.2.1Swin?Unet
4.2.2SegFormer
4.2.3Mask2Former
4.2.4Segment Anything Model
4.3目标检测DETR
4.4基于卷积的视觉大模型
第5章基于视觉Transformer的自监督学习
5.1自监督学习基本概念
5.2对比学习
5.3生成式学习
5.4典型自监督架构
5.4.1SimCLR
5.4.2MoCo
5.4.3BYOL
5.4.4DINO
5.4.5iBOT
5.4.6DINO v2
第6章视觉Transformer的优化与训练技巧
6.1数据增强策略
6.2正则化技术
6.3知识蒸馏
6.4迁移学习
第7章Transformer模型的改进与发展
7.1Transformer的改进
7.1.1FlashAttention
7.1.2Longformer
7.1.3Transformer?XL
7.2混合专家模型
7.2.1MoE模型定义
7.2.2MoE模型架构详解
7.2.3图像方面的应用
7.2.4技术挑战和未来发展方向
第8章未来在哪里
8.1Transformer未来发展趋势
8.2Transformer在视觉任务中的局限性
8.3未来研究方向展望
参考文献