本书系统讲解了大模型的技术体系与应用实践。全书在深入解析Transformer和GPT系列模型的核心原理的基础上,介绍了中国优秀大模型DeepSeek的基本情况,重点讲解Llama开源模型的训练调优及行业应用开发,并对文生图、文生视频乃至多模态等前沿技术进行了探讨。本书注重理论与实践相结合,通过精选开源项目案例,引导读者在代码实践中理解技术本质。
本书适合人工智能相关专业学生参考,也可供对大模型开发感兴趣的技术人员及爱好者阅读学习。
第一章 大语言模型基础知识 001~037
第一节 LLM基础 003
一、LLM概述 003
二、大模型存在的问题 010
三、检索增强生成(RAG) 012
四、大模型的改进方法 014
第二节 GPT模型介绍 016
一、GPT模型的发展历程 018
二、GPT模型的关键论文 024
三、GPT模型的结构可视化 028
第三节 开源、工具和实战 034
第二章 大语言模型的技术细节 038~103
第一节 大语言模型的全局视图 040
第二节 注意力机制 049
一、自注意力机制 050
二、多头注意力机制 053
第三节 编码、嵌入和神经网络 057
一、位置编码 057
二、旋转位置编码 059
三、字段编码 062
四、前馈网络 064
五、层归一化 066
第四节 权重、参数和训练策略 068
一、权重 068
二、Transformer的训练策略和优化方法 070
三、Transformer模型的正则化技术 072
四、注意力机制的变种和改进 073
五、Transformer模型微调的常见策略 074
第五节 更多原理剖析 075
一、零样本提示 075
二、少量样本提示 076
三、Transformer模型中的残差连接 077
四、文本生成源码解读 078
第六节 大模型的能与不能 082
一、人工智能的大工业时代 083
二、ChatGPT不等于人工智能 084
第七节 图示Transformer和实战GPT-2 085
一、图示Transformer 085
二、实战GPT-2 096
第八节 实战:手动部署大模型 101
第三章 开源大模型和Llama实战 104~123
第一节 Llama的结构 106
第二节 运行Llama3 110
第三节 Llama微调 112
一、微调的步骤 112
二、微调的方法 114
三、微调所需的基础知识 119
第四节 实战:大语言模型(LLM)微调框架 121
第四章 中文Llama模型 124~167
第一节 中文数据准备 128
一、中文数据处理的技术 130
二、中文数据处理的过程 138
三、中文数据处理的工具 140
第二节 基于中文数据的模型训练 143
一、指令数据搜集和处理 143
二、AdaLoRA算法剖析 146
三、大模型指令微调之量化 147
四、大模型压缩技术 149
五、大模型蒸馏技术 150
第三节 模型评测 151
第四节 人类反馈的集成 156
第五节 实战:中文应用开发 159
一、基于Llama的医学大模型的开源项目 159
二、基于Llama的法律大模型的开源项目 161
三、基于Llama的金融大模型的开源项目 163
四、基于Llama的科技论文大模型的
开源项目 166
第五章 实战大语言模型应用 168~192
第一节 大模型的基础设施创新 169
一、数据库创新开源项目 169
二、将自然语言问题转换为 SQL 查询 171
三、将大模型数据查询SQL化 173
第二节 基于大模型的应用创新 174
一、基于LLM的开源代码编写助手 174
二、开源数据交互工具 176
三、领先的文档GPT开源项目 178
第三节 大模型的优化和发展创新 180
一、开源的大模型用户分析平台 180
二、低代码方式搭建大模型 181
三、开源搜索增强RAG项目 184
第四节 Agent技术 185
一、微软开源的强大Agent——AutoGen 186
二、让Agent去完成RPA 189
三、让Agent去标注数据——Adala 190
第六章 开源文生图 193~220
第一节 文生图技术概述 194
一、生成对抗网络(GANs)介绍 195
二、GANs在图片生成方面的应用 196
三、GANs图片应用的说明和原理 198
第二节 开源文生图模型介绍 202
一、Stable Diffusion介绍 203
二、LDMs介绍 208
三、DALL-E和Stable Diffusion 209
第三节 开源文生图模型技术要点 213
一、LDMs的源代码导读 213
二、用一个案例说明Stable Diffusion 214
三、实战:部署开源项目stable-diffusion-webui 218
第四节 实战:打造基于开源的文生图应用 220
第七章 开源文生视频 221~228
第一节 开源文生视频介绍 222
第二节 文生视频技术难点和路线 224
一、文生视频技术难点 224
二、开源文生视频路线 226
第三节 开源文生视频应用 227
第八章 开源多模态 229~240
第一节 多模态介绍 231
第二节 多模态的技术细节 232
一、GPT-4o的多模态介绍 234
二、视觉指令调整 235
第三节 开源多模态案例 235
一、LLaVA实现GPT-4V级别的开源多模态 235
二、开源LLaVA-1.5介绍 237
三、MGM:一个强大的多模态大模型 238
第九章 DeepSeek实战 241~253
第一节 DeepSeek核心技术介绍 242
一、混合专家架构 242
二、多头潜在注意力机制 244
三、混合精度训练 245
第二节 DeepSeek-R1模型复现 245
第三节 DeepSeek-V3本地化源码级部署 246
一、使用 DeepSeek-Infer 进行推理演示 247
二、基于华为硬件的DeepSeek部署 248
第四节 基于DeepSeek的开源应用 249
一、基于DeepSeek的PPT生成系统 249
二、DeepSeek支持的可视化BI解决方案 250
三、DeepSeek支持的健康分析平台 251
四、DeepSeek支持的智能测试用例生成平台 251
五、可本地化部署的企业级DeepSeek知识管理平台 252
六、基于DeepSeek的智能体RPA 252