《解锁AIAgent技术——20个开发案例引领创新实践》紧密结合高等院校创新实践课程,深入浅出地阐述了AIAgent应用程序的开发路径,涵盖智能检索、视频调优、辅助决策等前沿方向,紧跟技术潮流。书中精心挑选的20个案例丰富多样,从系统架构设计到功能测试,层层剖析,既适合初学者入门,也能为经验丰富的开发者提供灵感与参考。本书配有详细的实现步骤、代码解析及优化思路,帮助读者深入理解AIAgent技术的核心原理与应用场景。此外,随书附赠的视频讲解、工程文件等配套资源。无论是高校学生、科研人员,还是从事AI开发的专业技术人员,都能从本书中获益。它不仅是一本技术书籍,更是一把开启AIAgent技术大门的钥匙,助力读者在AI领域探索创新、实现突破。
前言
在科技浪潮奔涌向前的当下,AI Agent无疑已成为人工智能领域最具活力与潜力的创新力量。它犹如一把万能钥匙,正开启一扇通往全新领域的大门,广泛应用于智能客服、智能办公、智能家居等领域,使人们的生活与工作获得前所未有的便捷与高效。
AI Agent不仅是技术层面的创新,更是一种思维模式的革命。它具备理解、学习和自主决策的能力,能模拟人类的思考和行动,为解决复杂问题提供高效且智能的解决方案。然而,理论与实践之间往往宛如横亘着一道难以跨越的天堑。许多开发者和技术爱好者在探索AI Agent的道路上,常常会陷入如何将抽象的理论转化为实际应用的困境之中。
为了帮助大家跨越这道难关,本书作者精心编写了《解锁AI Agent技术——20个开发案例引领创新实践》。书中精心挑选了极具代表性和启发性的案例,它们并非简单的代码堆砌,而是从真实的业务需求出发,详细展示如何运用AI Agent技术解决实际问题,进而帮助读者实现能力的显著提升。
在编写过程中,作者秉持深入浅出的原则,对每个案例的技术要点、实现步骤以及优化思路进行了细致入微的讲解,力求让读者不仅知其然,更知其所以然。无论读者是刚刚踏入AI领域的新手,还是经验丰富的资深开发者,都能从本书中获得灵感,找到解决问题的新思路和新方法。
本书可作为大学计算机、人工智能相关专业的本科生教材,为学生提供系统的知识体系和实践指导,同时也可作为从事物联网、创新开发和设计的专业技术人员的参考用书。
本书的内容和素材主要来源于以下几方面: 作者所在学校近年来承担的教育部和北京市的教育、教学改革项目与成果; 作者指导的研究生在物联网方向的研究工作及成果总结; 北京邮电大学信息与通信工程专业的创新实践。北京邮电大学信息与通信工程专业的学生通过CDIO工程教育方法,积极开展创新研发,不仅提升了自身的知识和能力,也为本书提供了宝贵的第一手素材和资料,在此向他们表示衷心的感谢。
由于作者水平有限,书中难免存在不足之处,恳请广大读者不吝赐教,以便进一步修改和完善。让我们共同携手,在AI Agent的技术海洋中不断探索,书写更加辉煌的篇章。
李永华
2026年1月
李永华,北京邮电大学信息与通信工程学院教授、博士生导师,拥有超过15年的嵌入式开发经验,目前致力于物联网、云计算与大数据的研究工作。在教学中善于以兴趣为导向,激发学生的创造性;以素质为基础,提高自身教学水平;以科研为手段,促进教学理念的转变。在研发及教学实践中指导学生实现500余个创新案例,参与30余项国家级与企业横向课题的研究工作,在国内外学术期刊及会议发表论文100余篇,申请专利40余项,出版教材40余部。
目录
项目1生成歌词
1.1总体设计
1.1.1整体框架
1.1.2系统流程
1.2开发环境
1.2.1安装Python
1.2.2安装PyCharm
1.2.3创建项目
1.2.4大模型API申请
1.3系统实现
1.3.1环境配置
1.3.2基础配置
1.3.3创建工作流
1.3.4生成歌词
1.4功能测试
项目2调整视频目光
2.1总体设计
2.1.1整体框架
2.1.2系统流程
2.2开发环境
2.2.1安装Python
2.2.2安装PyCharm
2.2.3安装Anaconda
2.2.4环境配置
2.2.5大模型API申请
2.3系统实现
2.3.1interfaces中接口调用文件
2.3.2后端文件
2.3.3index.html
2.4功能测试
2.4.1启动项目
2.4.2上传视频并处理
项目3慧答助手
3.1总体设计
3.1.1整体框架
3.1.2系统流程
3.2开发环境
3.2.1安装Python
3.2.2安装Python包
3.2.3智谱API申请
3.2.4SerpAPI申请
3.3系统实现
3.3.1AI Agent类的初始化
3.3.2网络搜索功能
3.3.3模型响应处理
3.3.4搜索需求判断方法
3.3.5查询处理逻辑
3.3.6主程序入口
3.4功能测试
3.4.1启动项目
3.4.2发送问题及响应
项目4智能检索
4.1总体设计
4.1.1整体框架
4.1.2系统流程
4.2开发环境
4.3系统实现
4.3.1初始化ChatModel
4.3.2构建检索工具
4.3.3创建Agent
4.3.4添加记忆模块
4.3.5RAG Agent应用实现
4.3.6RAG_Agent
4.3.7Flask API
4.3.8Streamlit界面
4.4功能测试
4.4.1启动项目
4.4.2结果分析
项目5简历回复
5.1总体设计
5.1.1整体框架
5.1.2系统流程
5.2开发环境
5.2.1创建虚拟环境
5.2.2创建项目
5.2.3环境配置
5.2.4大模型API申请
5.2.5Pinecone向量数据库API的申请
5.3系统实现
5.3.1Retriver模块
5.3.2Agents模块
5.3.3App.py代码
5.4功能测试
5.4.1启动项目
5.4.2发送问题及响应
项目6生成游戏
6.1总体设计
6.1.1整体框架
6.1.2系统流程
6.2开发环境
6.2.1安装VSCode
6.2.2GitHub的克隆
6.2.3大模型API申请
6.3系统实现
6.3.1执行开发流程
6.3.2ChatChain类
6.3.3Phase 代码
6.4功能测试
6.4.1启动项目
6.4.2发送问题及响应
项目7文本生成图片
7.1总体设计
7.1.1整体框架
7.1.2系统流程
7.2开发环境
7.2.1安装PyCharm
7.2.2环境配置
7.2.3创建项目
7.2.4大模型API申请
7.3系统实现
7.3.1生成鉴权信息
7.3.2主函数
7.4功能测试
7.4.1启动项目
7.4.2发送问题及响应
项目8代码开发
8.1总体设计
8.1.1整体框架
8.1.2系统流程
8.2开发环境
8.2.1安装Poetry
8.2.2安装Homebrew
8.2.3安装Ctags
8.2.4安装Pylint
8.2.5环境配置
8.2.6大模型API申请
8.3系统实现
8.3.1主函数
8.3.2任务管理程序
8.3.3工具类脚本
8.3.4记忆模块
8.4功能测试
8.4.1启动项目
8.4.2发送问题及响应
项目9通信学科知识问答
9.1总体设计
9.1.1整体框架
9.1.2系统流程
9.2开发环境
9.2.1安装Python
9.2.2环境配置
9.2.3大模型API申请
9.3系统实现
9.4功能测试
9.4.1启动项目
9.4.2发送问题及响应
项目10智能体平台
10.1总体设计
10.1.1整体框架
10.1.2系统流程
10.2开发环境
10.2.1安装Ollama
10.2.2安装Docker
10.2.3使用Docker部署Dify服务
10.3系统实现
10.3.1模型后端服务
10.3.2工具调用
10.3.3知识库检索
10.4功能测试
10.4.1启动项目
10.4.2发送问题及响应
项目11视频调优
11.1总体设计
11.1.1整体框架
11.1.2系统流程
11.2开发环境
11.2.1安装Cursor
11.2.2安装Remote?SSH插件
11.2.3连接服务器端
11.2.4安装软件包
11.3系统实现
11.3.1数据集准备
11.3.2下载CLIP和vicuna?7b?v1.5
11.3.3模型训练
11.4功能测试
11.4.1模型推理
11.4.2模型评估
项目12会话式搜索模型
12.1总体设计
12.1.1整体框架
12.1.2系统流程
12.2开发环境
12.2.1安装Anaconda
12.2.2安装CUDA
12.2.3安装PyTorch
12.2.4安装PyCharm
12.3系统实现
12.3.1主函数
12.3.2训练函数
12.3.3测试评估函数
12.4功能测试
12.4.1模型训练
12.4.2测试评估
项目13智能问答
13.1总体设计
13.1.1整体框架
13.1.2系统流程
13.2开发环境
13.2.1安装Python
13.2.2安装PyCharm
13.2.3环境配置
13.2.4创建项目
13.2.5大模型API申请
13.3系统实现
13.3.1大模型调用ChatBots.Py
13.3.2对话记录处理Conversation.py
13.3.3网页后端处理web.py
13.3.4用户交互界面ChatBots.html
13.3.5启动程序main.py
13.3.6API密钥文件.env
13.4功能测试
13.4.1启动项目
13.4.2发送问题及响应
13.4.3查看历史对话和连续对话
项目14教学机器人
14.1总体设计
14.1.1整体框架
14.1.2系统流程
14.2开发环境
14.2.1环境配置
14.2.2安装系统模块
14.2.3大模型API申请
14.3系统实现
14.3.1初始化向量库
14.3.2自定义检索工具
14.3.3加载智能体
14.3.4Gradio界面
14.4功能测试
14.4.1启动项目
14.4.2发送问题及响应
项目15智能翻译
15.1总体设计
15.1.1整体框架
15.1.2系统流程
15.2开发环境
15.2.1安装VSCode
15.2.2安装Python
15.2.3环境配置
15.2.4创建项目
15.2.5大模型API申请
15.3系统实现
15.3.1get_completion()函数
15.3.2one_chunk_initial_translation()函数
15.3.3one_chunk_reflect_translation()函数
15.3.4one_chunk_improve_translation()函数
15.3.5num_tokens_in_string()函数
15.3.6translate()函数
15.4功能测试
15.4.1启动项目
15.4.2发送问题及响应
项目16对话机器人
16.1总体设计
16.1.1整体框架
16.1.2系统流程
16.2开发环境
16.2.1安装Tabby Terminal
16.2.2安装Docker
16.2.3创建项目
16.2.4大模型API申请
16.2.5修改参数
16.3系统实现
16.4功能测试
16.4.1启动项目
16.4.2发送问题及响应
项目17检索增强生成模型
17.1总体设计
17.1.1整体框架
17.1.2系统流程
17.2开发环境
17.2.1安装Ollama
17.2.2环境配置
17.2.3创建项目
17.3系统实现
17.3.1构建外部知识库
17.3.2本地RAG
17.4功能测试
17.4.1启动项目
17.4.2发送问题及响应
项目18网页问答
18.1总体设计
18.1.1整体框架
18.1.2系统流程
18.2开发环境
18.2.1安装Anaconda、CUDA Toolkit和基本配置
18.2.2安装CUDA Toolkit
18.2.3安装库
18.2.4创建项目并部署GLM模型
18.3系统实现
18.4功能测试
18.4.1启动项目
18.4.2发送问题及响应
项目19提取知识图谱
19.1总体设计
19.1.1整体框架
19.1.2系统流程
19.2开发环境
19.2.1LangChain的集成
19.2.2GPT?4 API申请
19.2.3创建Neo4j数据库
19.2.4系统实现所需其余Python包
19.3系统实现
19.3.1数据库连接程序
19.3.2知识图谱提取程序
19.4功能测试
19.4.1数据库连通性测试
19.4.2知识图谱提取测试
项目20辅助决策
20.1总体设计
20.1.1整体框架
20.1.2系统流程
20.2开发环境
20.2.1测试版本
20.2.2应用接口
20.2.3环境配置
20.2.4大模型API申请
20.3系统实现
20.3.1代理对象配置
20.3.2生成回复
20.3.3任务设置与执行
20.4功能测试
20.4.1启动项目
20.4.2发送问题及响应