第一章 Transformer模型架构概览 001
一、Transformer的起源 002
二、Transformer的设计哲学 003
三、Transformer的基本组件 006
第二章 注意力机制 011
一、引言 012
二、注意力机制的基本概念 013
三、自注意力机制的工作原理 014
四、多头注意力机制 017
五、稀疏注意力机制 020
六、注意力机制在Transformer中的应用 023
第三章 位置编码 027
一、初步理解位置编码 028
二、位置编码的工作原理 030
三、位置编码的创新与改进 032
第四章 编码器与解码器 037
一、编码器和解码器概览 038
二、编码器的结构与功能 039
三、解码器的结构与功能 042
四、编码器- 解码器架构的实际应用 047
第五章 残差连接和层标准化 050
一、深层网络的挑战与优化 051
二、残差连接的工作原理与作用 054
三、层标准化的工作原理与作用 056
四、残差连接和层标准化的协同作用 058
五、 残差连接与层标准化在实际应用中的优化与改进 059
第六章 预训练与微调 062
一、引言 063
二、预训练语言模型的概念 065
三、微调的概念 068
四、预训练与微调的实际应用 070
五、模型效率的优化 073
六、未来展望 077
第七章 Transformer 的变体 081
一、为何需要Transformer的变体 082
二、BERT 模型 084
三、GPT 模型 086
四、T5 模型 090
五、 其他重要变体:RoBERTa、ALBERT、XLNet 094
第八章 模型优化与训练技巧 098
一、Transformer模型的训练挑战 099
二、参数初始化 100
三、学习率调度与优化器选择 102
四、正则化策略 105
五、梯度裁剪 107
六、混合精度训练与分布式训练 110
七、数据处理与数据增强 114
第九章 实际应用案例 118
一、Transformer模型如何改变NLP 任务 119
二、 文本分类中的Transformer应用——情感分析 119
三、 序列标注任务中的Transformer应用——命名实体识别 122
四、 序列到序列任务中的Transformer应用——机器翻译 126
五、 文本生成任务中的Transformer应用——自动文本摘要 129
结语: 探索未来语言智能的无限可能 134