本书分为两大部分,从理论到实践、从基础原理到前沿技术,全方位解析了大模型的构建、训练、部署 与应用的整个流程。第一部分介绍大模型的基础概念,包括大模型的定义、发展历程和构建所需的软硬件技术栈,重点讲解神经网络、训练优化及模型调优的基本原理。第二部分聚焦大模型的内在逻辑和实际应用, 涵盖推理、记忆、数据管道、多模态处理、硬件加速以及部署和维护等,同时以基于MoE的DeepSeek多模态大模型为案例,展示从项目架构设计到在线服务的全流程。
全书内容严谨而生动,既涵盖了大模型开发的全 流程技术细节,又不乏对大模型历史演变和未来趋势的前瞻性探讨,是探索大模型底层逻辑与实现技术的指南。本书适合具备Python基础开发能力、并希望进一步深入学习大模型开发、模型优化和部署应用的读者;同时,对于证券、保险、银行等行业的从业人员以及高校师生来说,也是一本兼具理论深度与实战指导的理 想参考书和教学辅导材料。
张治政
----------------------------
哈尔滨工业大学博士,百度云研发工程师,百度智能云千帆大模型工程师,在大规模机器学习、深度学习、数据搜索、行业垂直应用、研发管理等领域拥有丰富经验。在企业智能化转型、业务线上化经营、拥有丰富的大规模搜索架构、个性化推荐架构、机器学习系统架构经验和技术团队管理经验。现在从事与城市大数据中心的开发和建设工作,将深度学习运用到数字经济利领域。
目录
第1章大模型介绍
1.1 什么是大模型?002
1.1.1 大模型的第一印象?002
1.1.2 大模型的主要特点?003
1.2 大模型的发展历程?004
1.2.1 早期探索阶段?004
1.2.2 深度学习的兴起?004
1.2.3 Transformer架构的出现与普及?005
1.2.4 大规模预训练模型的爆发?006
1.2.5 跨模态与多模态融合?006
1.3 大模型的应用领域?008
第2章大模型开发技术栈
2.1 软件技术栈:构建大模型的“软件基石”?012
2.1.1 编程语言与开发工具?012
2.1.2 机器学习框架与扩展库?012
2.1.3 分布式计算与并行技术?013
2.1.4 模型部署与服务工具?014
2.2 硬件技术栈:支持大模型的“计算引擎”?016
2.2.1 GPU:大模型训练的核心动力引擎?016
2.2.2 专用AI加速芯片?017
2.2.3 计算资源与集群架构?018
2.2.4 内存与存储?019
2.3 软件与硬件协同优化:让大模型跑得更快?020
2.3.1 训练加速技术?021
2.3.2 推理加速与部署优化?021
2.3.3 能效优化与绿色AI?022
2.4 大模型技术栈的未来趋势:从算力到智力的突破?023
2.4.1 硬件发展趋势?023
2.4.2 软件技术突破?024
2.4.3 算力共享与去中心化?025
第3章大模型的构成
3.1 神经网络:大模型的“神经元”?027
3.1.1 神经网络的基本构成:模仿人类大脑?027
3.1.2 神经元与层次结构:信息传递与处理的桥梁?029
3.1.3 激活函数:神经元的“开关”与“决策器”?031
3.2 学习与训练:大模型的“成长”过程?036
3.2.1 监督学习和无监督学习:模型的自我修炼?036
3.2.2 强化学习:通过探索不断优化?036
3.2.3 训练过程中的挑战:过拟合与欠拟合的博弈?037
3.3 优化与改进:让大模型变得更聪明?041
3.3.1 梯度下降与参数优化:高效的进化之路?041
3.3.2 正则化与防止过拟合:避免模型过度“学习”?042
3.3.3 自适应优化:让大模型变得更加灵活?043
3.4 模型调优与评估?043
3.4.1 损失函数与精度评估:衡量模型的性能的“标尺”与“成绩单”?043
3.4.2 交叉验证:确保模型的“全能”表现?044
3.4.3 调优技巧:让模型最大化发挥潜力?045
第4章启动大模型
4.1 训练大模型?047
4.1.1 数据准备与预处理:大模型的“食粮”?047
4.1.2 选择合适的模型架构:如何决定模型的“大脑”??052
4.1.3 训练算法:模型从零开始的“修炼”?052
4.1.4 训练过程中的挑战与解决方案:避免大模型“犯错”?057
4.2 大模型的推理?060
4.2.1 推理与计算:模型思考的“秘密”?060
4.2.2 生成与优化:让答案更精准?064
4.2.3 提升推理能力:从数据到智慧的跨越?066
第5章机器学习
5.1 机器学习的基本概念?073
5.1.1 什么是机器学习?073
5.1.2 数据在机器学习中的角色?074
5.1.3 机器学习的目标?075
5.2 网络模型?076
5.2.1 机器学习中的网络模型?076
5.2.2 线性回归模型?077
5.2.3 逻辑回归模型?080
5.2.4 支持向量机模型?083
5.2.5 决策树模型?085
5.2.6 随机森林模型?088
5.2.7 K近邻算法模型?091
5.3 机器学习中的数学基础?095
5.3.1 概率论与统计学:让模型读懂“不确定性”?095
5.3.2 线性代数:从数据到“形状”的语言?098
5.3.3 微积分:优化模型的“秘密武器”?100
5.3.4 矩阵分解:复杂问题简单化?103
第6章深度学习
6.1 深度学习的起源与发展?107
6.1.1 早期的人工神经网络与感知机?107
6.1.2 深度学习的突破:多层感知机与反向传播?109
6.1.3 深度学习的黄金时代:卷积神经网络与突破?110
6.2 神经网络?112
6.2.1 神经网络的基本结构?112
6.2.2 神经网络的前向传播与反向传播?113
6.2.3 神经网络的训练过程?114
6.3 激活函数与损失函数?116
6.3.1 激活函数的作用与种类?116
6.3.2 损失函数的作用与类型?117
6.3.3 激活函数与损失函数的结合?118
6.4 深度学习模型?119
6.4.1 深度学习中的网络模型?120
6.4.2 前馈神经网络?120
6.4.3 卷积神经网络?123
6.4.4 循环神经网络?129
6.4.5 长短期记忆网络?133
6.4.6 生成对抗网络?137
第7章大模型的大脑
7.1 大模型如何“思考”?145
7.1.1 模型的推理与生成过程?145
7.1.2 多模态能力的实现?149
7.1.3 概率分布与不确定性评估?152
7.2 大模型的“记忆”与知识管理?156
7.2.1 参数中的隐式记忆?156
7.2.2 知识库的集成与增强?161
7.2.3 知识的更新与持续学习?164
7.3 大模型的限制与改进方向?168
7.3.1 计算资源的瓶颈?169
7.3.2 模型的偏见与伦理问题?169
7.3.3 通用模型与专用模型的平衡?170
第8章数据管道
8.1 数据收集:大模型的“食材”来源?173
8.1.1 数据源的多样性与获取方法?173
8.1.2 数据质量控制?174
8.1.3 数据收集中的挑战与解决方案?175
8.2 数据处理:清洗、标注与增强?176
8.2.1 数据清洗?176
8.2.2 数据标注?180
8.2.3 数据增强?184
8.2.4 数据处理的挑战与优化?187
8.3 数据存储与检索?188
8.3.1 数据存储结构与选择?188
8.3.2 数据检索与索引?189
8.3.3 数据存储与检索的挑战?194
第9章大模型的语言能力
9.1 编码与解码:大模型如何理解语言?196
9.1.1 文本编码:语言的“数字化翻译”?196
9.1.2 文本解码:从数字到语言?199
9.1.3 语言理解与生成中的挑战?203
9.2 图像与声音:大模型的“看”和“听”?204
9.2.1 图像的语言化:视觉信息的编码?204
9.2.2 声音的文本化:语音的编码与生成?207
9.2.3 跨模态信息处理中的挑战?209
9.3 多模态:大模型整合不同的信息?210
9.3.1 模态融合:信息的统一表达?210
9.3.2 多模态任务:多样化的应用场景?216
9.3.3 多模态模型的优化方向与未来发展?221
第10章大模型的硬件加速
10.1 硬件加速的基本原理?224
10.1.1 计算资源的需求与挑战?224
10.1.2 硬件加速的核心理念?225
10.1.3 从传统计算到并行计算的飞跃?225
10.2 主要硬件加速平台:为大模型铺路?226
10.2.1 GPU:图形处理器的强大变身?226
10.2.2 TPU:Google公司的专属加速利器?230
10.2.3 FPGA与ASIC:定制化硬件的突破?233
10.2.4 专用硬件与通用硬件的对比与选择策略?233
10.3 硬件架构优化:让大模型“飞起来”?234
10.3.1 模型并行与数据并行:跨越计算瓶颈?235
10.3.2 内存优化与带宽管理:解决数据传输瓶颈?235
10.3.3 多层次加速架构:从芯片到系统的协同优化?236
10.4 大模型训练与推理的加速技术:加速背后的智慧?237
10.4.1 混合精度训练:高效利用计算资源?237
10.4.2 分布式训练:大规模模型的分布式加速?241
10.4.3 自动化硬件优化:智能调度与资源管理?244
10.5 FPGA加速器实战项目:加速神经网络的搜索过程?248
10.5.1 准备工作?249
10.5.2 网络架构?251
10.5.3 数据集准备?254
10.5.4 准确率预测器?259
10.5.5 在算术强度约束下进行搜索?261
10.5.6 模型转换与保存?272
第11章大模型的部署与维护
11.1 部署:让大模型进入现实世界?275
11.1.1 部署前的准备工作?275
11.1.2 部署环境搭建与优化?276
11.1.3 部署中的挑战与解决方案?277
11.2 维护:确保大模型的健康?279
11.2.1 模型监控与反馈机制?279
11.2.2 模型更新与迭代?281
11.2.3 模型安全性与合规性?282
11.3 Ollama本地部署实战?284
11.3.1 安装Ollama?284
11.3.2 在Ollama中部署DeepSeek模型?286
11.3.3 LM Studio本地可视化部署?288
11.4 大模型的远程和云端部署?293
11.4.1 在阿里云上部署ChatGLM3?293
11.4.2 使用腾讯云部署DeepSeek?298
第12章基于混合专家实现的DeepSeek多模态大模型
12.1 项目介绍?303
12.1.1 模型架构的核心模块?303
12.1.2 技术创新与亮点?304
12.1.3 模型训练?305
12.2 开源模型?306
12.3 配置文件?308
12.4 模型架构介绍?310
12.4.1 模型配置?310
12.4.2 多模态模型架构?316
12.4.3 数据处理?316
12.4.4 DeepSeek-VL2基本架构?317
12.4.5 ViT模型?323
12.4.6 DeepSeek-VL2总结?346
12.5 模型部署和在线服务?349
12.5.1 设置部署参数?349
12.5.2 工具函数?352
12.5.3 Gradio工具?363
12.5.4 模板覆盖与扩展?366
12.5.5 Web 前端?369
12.5.6 模型推理?371
12.5.7 图文对话推理?375
12.6 在线测试?379
12.6.1 Web前端实现?379
12.6.2 启动Web测试?394