本书深入剖析DeepSeek的核心技术,介绍了提示词的原理与高级应用,对DeepSeek的模型架构、训练框架,以及MoE优化、MLA、思维链、GRPO算法、奖励模型等技术细节进行了探讨。此外,本书对DeepSeek给人工智能行业格局带来的影响及DeepSeek的开源贡献进行了分析,对大模型的未来趋势进行了展望,并介绍了DeepSeek在开源方面做出的贡献。
本书适合人工智能研究人员、开发人员及大模型相关技术爱好者阅读,也为关注人工智能领域技术发展的从业人员提供了参考与借鉴。
由一线资深技术人员编写,知识点讲解清晰。内容完全围绕DeepSeek核心技术展开,提炼精华。深入讨论DeepSeek的开源贡献,并通过LLaMA 4的技术优化对大模型的未来进行了展望。
写作目的
2025年年初,DeepSeek成为全球人工智能(AI)领域的焦点,其DeepSeek-V3和DeepSeek-R1版本在行业内引发了结构性震动。
本书是剖析DeepSeek技术原理的专业技术书,以全面的内容、深入的技术原理解析和前瞻性的行业洞察,为技术人员、研究人员和大模型相关技术爱好者提供了宝贵的学习资料,也为关注人工智能领域技术发展的从业人员提供了重要的参考与借鉴。通过阅读这本书,读者可以深入了解DeepSeek的技术细节,快速掌握大模型领域的前沿知识,洞察其对行业格局的影响,从而更好地把握人工智能发展的脉络,提升自身在该领域的专业素养和竞争力,为未来的职业发展和个人成长奠定坚实的基础。
本书架构
第1章介绍DeepSeek的一系列技术突破与创新,如架构创新、训练优化、推理与部署优化等,让读者对DeepSeek的性能突破形成直观的认识。同时,介绍DeepSeek的模型家族,涵盖通用语言模型、多模态模型、代码生成与理解等领域,展现了DeepSeek在大模型的不同细分领域取得的成就。
第2章为初学者深入浅出地讲解DeepSeek的使用方法。从推理模型与通用模型的差异,到具体的使用案例,读者可以直观地感受DeepSeek在实际应用中的强大功能。对提示工程的详细介绍,可以帮助读者了解如何通过精心设计的提示词更好地发挥DeepSeek的能力。对提示词链的高级使用技巧的介绍,为读者进一步提升DeepSeek使用效果提供参考。
第3章和第4章是本书的核心与精华。
第3章深入剖析DeepSeek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型(MoE)的起源与发展,到DeepSeek-V3的MoE优化,再到对多头潜在注意力(MLA)机制和多token预测的详细解读,帮助读者全面了解DeepSeek-V3在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8混合精度训练及推理阶段的优化等内容的深入分析,展示了DeepSeek在提升效率和性能方面的不懈追求。
第4章关于DeepSeek-R1的技术剖析同样精彩纷呈。预备知识的介绍为读者理解后续内容打下了坚实的基础。对DeepSeek-R1-Zero的组相对策略优化(GRPO)算法、奖励模型等关键技术的深入剖析,可以帮助读者了解DeepSeek在强化学习领域的创新性探索。对DeepSeek-R1的训练过程和推理能力的蒸馏等内容的详细阐述,能让读者对这一创新技术的特点有全面的认知。
第5章从宏观的角度分析DeepSeek对人工智能技术格局的影响,包括打破硬件依赖迷思、冲击英伟达CUDA护城河、引发大模型技术路线的重新思考等多个方面。同时,总结了DeepSeek成功背后的启示,如领导者敏锐的技术直觉、长期主义的坚持、极致的工程优化等,为读者提供了宝贵的经验和启示。
第6章对DeepSeek开源周的多个技术项目进行了深入的分析。通过对FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS等项目的介绍,展示了DeepSeek在开源领域的积极探索,体现了其推动大模型技术普及和发展的决心。这些技术项目的详细解读,能让读者了解DeepSeek在降低人工智能技术门槛、促进技术交流与合作方面的巨大贡献。
第7章对大模型的发展进行了讨论。从MoE的发展趋势、MLA的展望,大模型的训练方法、推理部署,到GPU硬件及推理模型的发展趋势,以前瞻性的视角为读者描绘了大模型的发展蓝图。
本书将带领读者走进DeepSeek的神秘世界,领略大模型技术的魅力,开启一段探索人工智能未来的奇妙旅程。无论您是对大模型技术感兴趣的初学者,还是在该领域深耕多年的专业人士,本书都值得一读。它将帮助您更好地把握人工智能技术的发展趋势,提升自身的技术水平和创新能力,为您在人工智能领域的发展提供有力的支持。
致谢
感谢刘嘉浪(硕士,国防科技大学)、詹佳磊(博士,国防科技大学)和谢宇航(硕士,西安电子科技大学)为本书写作提供的帮助。
本书成书较为仓促,如有不足之处,还请读者批评指正。
卢菁 北京科技大学博士,北京大学博士后,B站、视频号优秀科技博主。曾任职于腾讯、爱奇艺等知名互联网公司,前腾讯AI内训讲师,主要从事人工智能技术的应用和研发工作,主要研究方向为大模型、多模态、自然语言处理、知识图谱、推荐系统等。著有《速通机器学习》《速通深度学习数学基础》。
戴志仕 资深AI架构师,寒武纪人工智能公众号的创立者。2024年CCF国际AIOps挑战赛优秀奖获得者。拥有十余年人工智能算法研究和产业落地经验,成功实施过多个人工智能项目。
第 1 章 技惊四座的 DeepSeek / 1
1.1 石破天惊的产品发布 / 1
1.2 DeepSeek-V3 和 DeepSeek-R1 可以做什么 / 4
1.3 DeepSeek-V3 的技术突破与创新 / 7
1.3.1 架构创新 / 8
1.3.2 训练优化 / 9
1.3.3 推理与部署优化 / 10
1.3.4 效果的全面提升 / 10
1.4 DeepSeek-R 系列的技术突破与创新 / 10
1.4.1 DeepSeek-R1-Zero 的技术突破与创新 / 11
1.4.2 DeepSeek-R1 的技术突破与创新 / 12
1.4.3 推理能力的提升 / 12
1.5 DeepSeek 发布的模型家族 / 14
1.5.1 通用语言大模型 / 16
1.5.2 多模态大模型 / 17
1.5.3 代码大模型 / 18
1.5.4 数学推理大模型 / 18
1.5.5 混合专家模型 / 19
1.5.6 MoE 专用微调模型 / 19
1.5.7 基于 LLaMA 架构的模型 / 20
第 2 章 提示词的原理与应用 / 21
2.1 推理模型与通用模型 / 21
2.2 提示工程 / 29
2.2.1 提示词的类型 / 30
2.2.2 提示词的基本元素 / 33
2.2.3 有效的提示词 / 37
2.2.4 正确地表达需求 / 38
2.3 提示词高级技巧:提示词链 / 39
2.3.1 提示词链的设计过程 / 39
2.3.2 提示词链的应用案例 / 40
第3章 DeepSeek-V3 技术剖析 / 43
3.1 DeepSeek 的模型架构 / 43
3.1.1 MoE 的起源与发展 / 44
3.1.2 DeepSeek-V3 的 MoE 优化 / 50
3.1.3 DeepSeek-V3 的 MoE 架构的优势 / 54
3.1.4 DeepSeek-V3 的 MLA / 54
3.1.5 DeepSeek-V3 的 MTP / 59
3.2 DeepSeek 的训练框架 / 62
3.2.1 常见的并行策略 / 62
3.2.2 DeepSeek 的并行策略 / 67
3.2.3 DeepSeek 的 FP8 混合精度训练 / 73
3.3 DeepSeek 的推理阶段优化 / 77
3.3.1 PD 分离架构 / 77
3.3.2 DeepSeek 的预填充阶段优化 / 78
3.3.3 DeepSeek 的解码阶段优化 / 78
3.4 DeepSeek 的后训练优化 / 79
3.5 小结 / 80
第 4 章 DeepSeek-R1 技术剖析 / 81
4.1 预备知识 / 81
4.1.1 思维链 / 81
4.1.2 有监督微调 / 82
4.1.3 强化学习 / 83
4.2 DeepSeek 对训练推理模型的探索 / 88
4.3 DeepSeek-R1-Zero 的训练 / 88
4.3.1 GRPO 算法 / 91
4.3.2 奖励模型 / 94
4.4 DeepSeek-R1 的训练 / 95
4.4.1 阶段一训练 / 96
4.4.2 阶段二训练 / 97
4.4.3 推理能力的蒸馏 / 99
4.5 小结 / 100
第5章 DeepSeek 的影响与成功启示 / 103
5.1 DeepSeek 对 AI 格局的影响 / 103
5.1.1 打破硬件依赖的迷思 / 103
5.1.2 对英伟达 CUDA 护城河的冲击 / 104
5.1.3 对大模型技术路线的重新思考 / 104
5.1.4 投资风向的改变 / 105
5.1.5 对商业模式的冲击 / 105
5.1.6 对创新文化的冲击 / 106
5.1.7 对地缘政治的冲击 / 106
5.2 DeepSeek 的成功启示 / 106
5.2.1 领导者的技术直觉 / 107
5.2.2 长期主义 / 107
5.2.3 极致的工程优化 / 107
5.2.4 对资源的高效利用 / 108
5.2.5 团队的创新文化 / 108
第 6 章 DeepSeek 开源技术剖析 / 109
6.1 DeepSeek 的开源周 / 109
6.2 FlashMLA:减少显存消耗 / 110
6.2.1 项目特点 / 111
6.2.2 应用场景 / 112
6.2.3 技术剖析 / 113
6.2.4 影响与展望 / 114
6.3 DeepEP:通信系统的优化 / 115
6.3.1 项目特点 / 115
6.3.2 应用场景 / 116
6.3.3 技术剖析 / 117
6.3.4 影响与展望 / 119
6.4 DeepGEMM:让矩阵乘法起飞 / 120
6.4.1 项目特点 / 121
6.4.2 应用场景 / 123
6.4.3 技术剖析 / 124
6.4.4 影响与展望 / 126
6.5 DualPipe 与 EPLB:集群并行计算优化 / 127
6.5.1 项目特点 / 128
6.5.2 技术剖析 / 130
6.5.3 影响与展望 / 133
6.6 3FS:为 AI 加速 / 134
6.6.1 项目特点 / 134
6.6.2 应用场景 / 136
6.6.3 技术剖析 / 137
6.6.4 影响与展望 / 139
第 7 章 大模型未来发展展望 / 143
7.1 MoE 的未来 / 143
7.1.1 专家数量与规模的优化 / 143
7.1.2 MoE 分布式训练工具进一步完善 / 143
7.1.3 门控算法的改进 / 144
7.1.4 跨领域应用与融合 / 144
7.2 MLA 的未来 / 144
7.3 大模型训练方法的发展趋势 / 145
7.3.1 三阶段训练法的普及 / 145
7.3.2 混合精度训练的推广 / 145
7.3.3 并行策略的优化 / 145
7.4 推理部署的发展趋势 / 146
7.4.1 PD 分离模式的普及 / 146
7.4.2 集群化推理的优化与推理加速技术研究 / 146
7.5 GPU 硬件的未来发展 / 146
7.5.1 软硬件协同升级 / 146
7.5.2 存储与通信能力的优化 / 147
7.5.3 低精度计算的支持 / 147
7.5.4 异构计算的支持 / 147
7.6 从 LLaMA 4 看推理模型的发展 / 148
7.6.1 LLaMA 4 简介 / 148
7.6.2 LLaMA 4 的核心技术细节 / 150