Transformer模型基础篇
第1章Transformer综述
1.1Transformer是什么
1.1.1Transformer模型的工作原理
1.1.2Transformer模型的编码器与解码器简介
1.1.3Transformer模型编码器层
1.1.4Transformer模型解码器层
1.1.5Transformer模型残差连接与数据归一化
1.2Transformer模型框架
1.2.1Transformer模型的词嵌入
1.2.2Transformer模型的位置编码
1.2.3Transformer模型的编码器与解码器
1.2.4Transformer模型的最终输出
1.2.5Transformer模型的注意力机制
1.2.6Transformer模型的多头注意力机制
1.2.7Transformer模型的前馈神经网络
1.3本章总结
第2章Transformer模型的输入与输出
2.1Transformer模型的词嵌入
2.1.1Transformer 模型词嵌入的概念
2.1.2Transformer模型词嵌入的代码实现
2.2Transformer 模型的位置编码
2.2.1Transformer 模型位置编码的计算过程
2.2.2Transformer模型位置编码的正余弦函数
2.2.3Transformer 模型位置编码的代码实现
2.3Transformer模型解码器的输入
2.4Transformer模型中的掩码矩阵
2.4.1Transformer模型的Pad Mask
2.4.2Transformer模型的 Sequence Mask
2.4.3Transformer 模型Sequence Mask & Pad Mask的代码实现
2.5Transformer模型的输出
2.5.1Transformer 模型的线性层
2.5.2Transformer模型输出数据的Softmax 操作
2.5.3Transformer模型输出数据的Softmax代码实现
2.6本章总结
第3章Transformer模型的注意力机制
3.1Transformer模型注意力机制的概念
3.1.1Transformer模型的自注意力机制
3.1.2Transformer模型注意力机制中两个矩阵乘法的含义
3.1.3Transformer模型的Softmax操作
3.1.4Transformer模型的注意力矩阵
3.2Transformer模型Q、K、V三矩阵
3.2.1Transformer模型Q、K、V三矩阵的来历
3.2.2Transformer模型Q、K、V矩阵注意力机制的运算
3.3Transformer模型注意力机制中的缩放点积
3.3.1Transformer模型注意力机制的问题
3.3.2Transformer模型注意力机制的缩放点积
3.4Transformer模型注意力机制的代码实现过程
3.5Transformer模型多头注意力机制
3.5.1Transformer模型多头注意力机制的计算公式
3.5.2Transformer模型Qi、Ki、Vi的来历
3.5.3Transformer模型多头注意力机制的计算
3.6Transformer 模型多头注意力机制的代码实现
3.6.1Transformer模型多头注意力机制的代码
3.6.2Transformer模型多头注意力矩阵可视化
3.7本章总结
第4章Transformer模型的残差连接,归一化与前馈神经网络
4.1Transformer模型批归一化与层归一化
4.1.1Transformer模型批归一化
4.1.2Transformer 模型层归一化
4.1.3Transformer模型的层归一化操作
4.1.4Transformer模型层归一化的代码实现
4.2残差神经网络
4.2.1ResNet残差神经网络
4.2.2Transformer模型的残差连接
4.3Transformer模型前馈神经网络
4.3.1Transformer模型前馈神经网络的计算公式
4.3.2激活函数
4.3.3Transformer模型ReLU激活函数
4.3.4Transformer模型前馈神经网络的代码实现
4.4本章总结
第5章Transformer模型搭建
5.1Transformer模型编码器
5.1.1Transformer模型编码器组成
5.1.2Transformer模型编码器层的代码实现
5.1.3搭建Transformer模型编码器
5.2Transformer模型解码器
5.2.1Transformer模型解码器组成
5.2.2Transformer模型解码器层的代码实现
5.2.3搭建Transformer模型解码器
5.3搭建Transformer模型
5.3.1Transformer模型组成
5.3.2Transformer模型的代码实现
5.4Transformer模型训练过程
5.5Transformer模型预测过程
5.6Transformer模型Force Teach
5.7Transformer 模型与RNN模型
5.7.1RNN循环神经网络
5.7.2Transformer模型与RNN模型对比
5.8本章总结
Transformer模型NLP领域篇
第6章Transformer 编码器模型: BERT模型
6.1BERT模型结构
6.1.1BERT模型简介
6.1.2BERT模型构架
6.2BERT模型的输入部分
6.2.1BERT模型的Token Embedding
6.2.2BERT模型的位置编码
6.2.3BERT模型的序列嵌入
6.2.4BERT模型的输入
6.3BERT模型Transformer编码器框架
6.4BERT模型的输出
6.4.1BERT模型的MLM预训练任务
6.4.2BERT模型的NSP预训练任务
6.5BERT模型的微调任务
6.6BERT模型的代码实现
6.6.1BERT模型的特征嵌入
6.6.2BERT模型的自注意力机制
6.6.3BERT模型的多头注意力机制
6.6.4BERT模型的前馈神经网络
6.6.5BERT模型的编码器层
6.6.6BERT模型搭建
6.7本章总结
第7章Transformer 解码器模型: GPT系列模型
7.1GPT模型结构
7.1.1GPT模型简介
7.1.2GPT模型构架
7.2GPT模型的输入部分
7.2.1GPT模型的Token Embedding
7.2.2GPT模型的位置编码
7.3GPT模型的整体框架
7.4GPT模型的无监督预训练
7.5GPT模型的微调任务
7.5.1GPT模型微调
7.5.2GPT模型监督有标签输入
7.6GPT2模型
7.6.1GPT2模型简介
7.6.2GPT2模型的Zeroshot
7.7GPT3模型
7.7.1GPT3模型框架
7.7.2GPT3模型下游任务微调
7.7.3GPT3模型预训练数据集
7.8本章总结
Transformer模型计算机视觉篇
第8章计算机视觉之卷积神经网络
8.1卷积神经网络的概念
8.1.1卷积神经网络的填充、步长和通道数
8.1.2卷积神经网络的卷积核
8.1.3卷积神经网络卷积层
8.1.4卷积神经网络池化层
8.1.5卷积神经网络全连接层
8.1.6卷积神经网络全局平均池化
8.1.7卷积神经网络的感受野
8.1.8卷积神经网络的下采样
8.1.9神经网络中的DropOut
8.2卷积神经网络
8.2.1卷积神经网络模型搭建
8.2.2卷积神经网络LeNet5模型搭建
8.2.3卷积神经网络LeNet5模型的代码实现
8.3卷积神经网络LeNet5手写数字识别
8.3.1MNIST数据集
8.3.2LeNet5手写数字模型训练
8.3.3LeNet5手写数字模型预测
8.4本章总结
第9章Transformer视觉模型: Vision Transformer模型
9.1Vision Transformer模型
9.1.1Vision Transformer模型简介
9.1.2Vision Transformer模型的数据流
9.2Vision Transformer模型的Patch Embedding与位置编码
9.2.1Vision Transformer模型的Patch Embedding
9.2.2Vision Transformer模型Patch Embedding的代码实现
9.2.3Vision Transformer模型的位置编码
9.2.4Vision Transformer模型位置编码的代码实现
9.3Vision Transformer模型编码器层
9.3.1Vision Transformer与标准Transformer编码器层的区别
9.3.2Vision Transformer模型多头注意力机制的代码实现
9.3.3Vision Transformer模型前馈神经网络的代码实现
9.3.4搭建Vision Transformer模型编码器
9.4Vision Transformer输出层的代码实现
9.5搭建Vision Transformer模型
9.6本章总结
第10章Transformer视觉模型: Swin Transformer模型
10.1Swin Transformer模型
10.1.1Swin Transformer模型简介
10.1.2Swin Transformer模型的数据流
10.1.3Swin Transformer窗口注意力机制的框架模型
10.2Swin Transformer模型窗口分割
10.2.1Swin Transformer模型的Patch Embedding
10.2.2Swin Transformer模型Patch Embedding的代码实现
10.2.3Swin Transformer模型窗口分割与窗口复原的代码实现
10.3Swin Transformer模型Patch Merging
10.3.1Swin Transformer模型的Patch Merging操作
10.3.2Swin Transformer模型Patch Merging的代码实现
10.4Swin Transformer模型的位置编码
10.4.1Swin Transformer模型位置编码的来源
10.4.2Swin Transformer模型位置编码的代码实现
10.5Swin Transformer模型移动窗口与掩码矩阵
10.5.1Swin Transformer模型的移动窗口
10.5.2Swin Transformer模型的掩码矩阵
10.5.3Swin Transformer模型移动窗口的代码实现
10.5.4Swin Transformer模型掩码矩阵的代码实现
10.6Swin Transformer模型窗口注意力与移动窗口注意力
10.6.1Swin Transformer模型窗口注意力机制代码
10.6.2Swin Transformer模型移动窗口注意力机制代码
10.7Swin Transformer模型计算复杂度
10.8本章总结
Transformer模型进阶篇
第11章CNN Transformer视觉模型: DETR模型
11.1DETR模型
11.1.1DETR模型框架
11.1.2DETR模型的Transformer框架
11.2DETR模型的代码实现
11.2.1DETR模型搭建
11.2.2基于DETR预训练模型的对象检测
11.3本章总结
第12章Transformer多模态模型
12.1多模态模型简介
12.2Transformer多模态模型: VILT模型
12.2.1VILT模型简介
12.2.2VILT模型的代码实现
12.3Transformer多模态模型: CLIP模型
12.3.1CLIP模型简介
12.3.2CLIP模型的代码实现
12.4本章总结
第13章优化Transformer模型注意力机制
13.1稀疏注意力机制
13.1.1稀疏注意力机制简介
13.1.2稀疏注意力机制的代码实现
13.2Flash Attention
13.2.1标准注意力机制计算过程
13.2.2Flash Attention注意力机制的计算过程
13.2.3Flash Attention注意力机制的代码实现
13.3MoE混合专家模型
13.3.1混合专家模型简介
13.3.2混合专家模型的代码实现
13.4RetNet模型
13.4.1RetNet模型的多尺度保留机制
13.4.2RetNet模型的递归表示
13.4.3RetNet模型的代码实现
13.5本章总结
Transformer模型实战篇
第14章Transformer模型环境搭建
14.1本地Python环境搭建
14.1.1Python环境安装
14.1.2Python安装第三方库
14.2Python云端环境搭建
14.2.1百度飞桨AI Studio云端环境搭建
14.2.2Google Colab云端环境搭建
14.3本章总结
第15章Transformer模型自然语言处理领域实例
15.1基于Transformer模型的机器翻译实例
15.1.1基于Transformer模型的机器翻译模型训练
15.1.2基于Transformer模型的机器翻译模型推理过程
15.2基于Transformer模型的BERT模型应用实例
15.2.1Hugging Face Transformers库
15.2.2基于Transformers库的BERT应用实例
15.2.3训练一个基于BERT模型的文本多分类任务模型
15.3本章总结
第16章Transformer模型计算机视觉领域实例
16.1Vision Transformer模型预训练
16.1.1Vision Transformer模型预训练数据集
16.1.2Vision Transformer模型预训练权重
16.1.3训练Vision Transformer模型
16.1.4使用Vision Transformer预训练模型进行对象分类
16.2Swin Transformer模型实例
16.2.1Swin Transformer预训练模型
16.2.2训练 Swin Transformer模型
16.2.3使用Swin Transformer预训练模型进行对象分类
16.3使用DETR预训练模型进行对象检测
16.4本章总结
第17章Transformer模型音频领域实例
17.1语音识别模型
17.1.1Whisper语音识别模型简介
17.1.2Whisper语音识别模型的代码实现
17.2语音合成模型
17.2.1ChatTTS语音合成模型简介
17.2.2ChatTTS语音合成模型的代码实现
17.3本章总结
参考文献
致谢