深入解析Transformer 架构_吕阳、王韵涵著_9787122490315

深入解析Transformer 架构

定　　价：68 元

丛书名：AI大模型技术丛书

作者：吕阳、王韵涵著
出版时间：2026/2/1
ISBN：9787122490315
出版社：化学工业出版社

中图法分类：TP391
页码：135
纸张：
版次：01
开本：16开
商品库位：

第一章 Transformer模型架构概览 001 一、Transformer的起源 002 二、Transformer的设计哲学 003 三、Transformer的基本组件 006 第二章注意力机制 011 一、引言 012 二、注意力机制的基本概念 013 三、自注意力机制的工作原理 014 四、多头注意力机制 017 五、稀疏注意力机制 020 六、注意力机制在Transformer中的应用 023 第三章位置编码 027 一、初步理解位置编码 028 二、位置编码的工作原理 030 三、位置编码的创新与改进 032 第四章编码器与解码器 037 一、编码器和解码器概览 038 二、编码器的结构与功能 039 三、解码器的结构与功能 042 四、编码器- 解码器架构的实际应用 047 第五章残差连接和层标准化 050 一、深层网络的挑战与优化 051 二、残差连接的工作原理与作用 054 三、层标准化的工作原理与作用 056 四、残差连接和层标准化的协同作用 058 五、残差连接与层标准化在实际应用中的优化与改进 059 第六章预训练与微调 062 一、引言 063 二、预训练语言模型的概念 065 三、微调的概念 068 四、预训练与微调的实际应用 070 五、模型效率的优化 073 六、未来展望 077 第七章 Transformer 的变体 081 一、为何需要Transformer的变体 082 二、BERT 模型 084 三、GPT 模型 086 四、T5 模型 090 五、其他重要变体：RoBERTa、ALBERT、XLNet 094 第八章模型优化与训练技巧 098 一、Transformer模型的训练挑战 099 二、参数初始化 100 三、学习率调度与优化器选择 102 四、正则化策略 105 五、梯度裁剪 107 六、混合精度训练与分布式训练 110 七、数据处理与数据增强 114 第九章实际应用案例 118 一、Transformer模型如何改变NLP 任务 119 二、文本分类中的Transformer应用——情感分析 119 三、序列标注任务中的Transformer应用——命名实体识别 122 四、序列到序列任务中的Transformer应用——机器翻译 126 五、文本生成任务中的Transformer应用——自动文本摘要 129 结语：探索未来语言智能的无限可能 134

你还可能感兴趣

我要评论