使用Python和JAX构建推荐系统_[美]布莱恩比肖夫(Bryan Bischof) [美]余养励(Hector Yee) 著_9787523900529

实现和设计向用户提供建议的系统是当前且最重要的机器学习应用之一.无论是希望客户在你的在线商店中找到拥有吸引力的商品、获取丰富且有趣的视频,还是获取他们需要了解的新闻,推荐系统(RecSys)都能提供解决方案.在这本实用指南中,本书作者阐述了核心概念,并提供示例,帮助你构建适用于任何行业或规模的推荐系统.你将学习构建成功推荐系统所需的数学知识、基本理念,以及具体的实现细节.本书涵盖推荐系统平台的核心组件、MLOps相关工具,以及PySpark、SparkSQL、FastAPI和Weights&Biases中的代码示例和实用建议.你将学习:·构建推荐系统所需的数据.·如何将你的数据和业务问题框定为推荐系统问题.·适用于你的系统的模型评估方法.选择、实现、训练、测试和部署模型的方法.·需要跟踪的关键指标,以确保系统按预期运行.·随着对用户、产品和业务的深入了解,如何不断改进你的系统.

前言你是如何找到这本书的？是在网站上看到的广告吗？也许是朋友或导师推荐的，或是在社交媒体上看到的相关帖子。也有可能是在书店的书架上发现的，一家你通过地图应用找到的书店。无论你是如何找到它的，你几乎可以肯定是通过某种推荐系统来到这本书的。实现和设计为用户提供建议的系统是机器学习（ML）在任何业务中最流行和最重要的应用之一。无论你是希望帮助用户找到最符合他们品味的衣服，还是从网上商店中购买最吸引人的商品，或是提供丰富娱乐的视频，从他们的网络中呈现出最具吸引力的内容，或者是他们当天需要知道的新闻亮点，推荐系统都是实现这些目标的方式。现代推荐系统的设计与它们所服务的领域一样多样化。这些系统不仅包括实现和执行产品目标的计算机软件架构，还包括排序的算法组件。推荐排名的方法可以来自传统的统计学习算法、线性代数的启发、几何考虑，当然还有基于梯度的方法。正如算法方法的多样性一样，推荐的建模和评估考虑也同样多样化：个性化排名、搜索推荐、序列建模，以及这些方法的评分现在都是从事推荐系统工作的机器学习工程师需要了解的内容。如果你是一名机器学习从业者，你可能已经了解推荐系统，并且可能知道一两种最简单的建模方法，并能够专业地谈论相关的数据结构和模型架构。然而，RecSys 常常超出数据科学和机器学习的核心课程。许多拥有多年行业经验的高级数据科学家对实际构建推荐系统知之甚少，当谈及此话题时可能会感到不安。尽管RecSys 与其他机器学习问题有着相似的基础和技能，但其活跃的社区和快速发展的重点使得构建推荐系统容易被那些已经投入时间或愿意保持最新信息的其他数据科学家所忽略。这本书的存在正是为了突破这些感知的障碍。理解推荐系统在实际层面上的应用不仅对需要向用户提供内容的商业案例有用，RecSys 的基本理念通常还能弥合其他类型机器学习之间的巨大差距。例如，一个文章推荐系统可能会利用自然语言处理（NLP）来找到文章的表示，使用序列建模来促进更长时间的参与，并使用上下文组件来允许用户查询引导结果。如果你纯粹是出于学术兴趣进入这一领域，无论你对数学的哪个方面感兴趣，迟早都会在RecSys 中找到联系或应用！最后，如果与其他领域的联系、几乎所有数学的应用或明显的商业实用性还不足以让你对RecSys 感兴趣，那么令人惊叹的尖端技术可能会达到这个效果。RecSys 始终处于甚至超越了机器学习的前沿。拥有显著的收入影响的一个好处是，公司和从业者需要不断推动可能性的边界以及他们的实现方式。当你考虑到FAANG[ 即Meta（前Facebook）、Apple、Amazon、Netflix 和Google] 的五个字母中有四个的核心在于一个或多个推荐系统时，这并不奇怪。有人可能会争论说Apple 的核心也有推荐系统。尽管确实如此，App Store 是公司至关重要的战略产品，但我们保守地认为五个中的四个，认为推荐系统并不是Apple的主要收入来源。作为从业者，你需要了解如何：? 将你的数据和业务问题框架化为RecSys 问题。? 确定开始构建RecSys 所需的基本数据。? 确定适合你的RecSys 问题的模型以及如何评估它们。? 实现、训练、测试和部署上述模型。? 跟踪指标以确保系统按计划运行。? 随着你对用户、产品和业务案例的了解不断改进系统。本书展示了完成这些步骤所需的核心概念和示例，无论行业或规模如何。我们将引导你通过数学、思想和实现细节来构建推荐系统，无论这是你的第一个还是第五十个推荐系统。我们将向你展示如何使用Python 和JAX 构建这些系统。如果你还不熟悉，JAX 是Google 推出的一个Python 框架，旨在使自动微分和函数式编程范式成为一等对象。此外，它使用特别方便于来自各种背景的机器学习从业者的NumPy API 风格。我们将展示必要核心概念的代码示例和架构模型，并提供将这些系统扩展到生产应用的方法。排版约定本书采用以下排版约定。斜体（Italic）表示新术语、URL、电子邮件地址、文件名和文件扩展名。等宽字体（Constant width）表示程序清单，在段落内表示程序元素，例如变量、函数名称、数据库、数据类型、环境变量、语句和关键字。粗体等宽字体（Constant width bold）表示应由用户原封不动输入的命令或其他文本。斜体等宽字体（Constant width italic）表示应该替换成用户提供值的文本，或者由上下文决定的值。使用代码示例所包含的代码片段引用了将在中等规模且大多数情况下免费的资源上运行的笔记本。为了便于实验和探索，我们通过Google Colab 笔记本提供代码。补充材料（代码示例、练习等）可在GitHub 上的ESRecsys 下载（https://github.com/BBischof/ESRecsys/）。与本书相关的技术问题，或者在使用代码示例上有疑问，请发电子邮件到bookquestions@oreilly.com。本书是要帮你完成工作的。一般来说，如果本书提供了示例代码，你可以把它用在你的程序或文档中。除非你使用了很大一部分代码，否则无需联系我们获得许可。比如，用本书的几个代码片段写一个程序就无需获得许可，销售或分发OReilly 图书的示例集则需要获得许可；引用本书中的示例代码回答问题无需获得许可，将书中大量的代码放到你的产品文档中则需要获得许可。我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和ISBN，例如：Building Recommendation Systems in Python and JAX by Bryan Bischof and Hector Yee. Copyright 2024 Bryan Bischof and Resonant Intelligence LLC, 978-1-492-09799-0 。如果你觉得自己对示例代码的使用超出了上述许可范围，请通过permissions@oreilly.com 与我们联系。OReilly 在线学习平台（OReilly Online Learning）近40 年来，OReilly Media 致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。公司独有的专家和改革创新者网络通过OReilly 书籍、文章以及在线学习平台，分享他们的专业知识和实践经验。OReilly 在线学习平台按照您的需要提供实时培训课程、深入学习渠道、交互式编程环境以及来自OReilly 和其他200 多家出版商的大量书籍与视频资料。更多信息，请访问网站：https://www.oreilly.com/。联系我们任何有关本书的意见或疑问，请按照以下地址联系出版社。美国：OReilly Media, Inc.1005 Gravenstein Highway NorthSebastopol, CA 95472中国：北京市西城区西直门南大街2 号成铭大厦C 座807 室（100035）奥莱利技术咨询（北京）有限公司我们为本书建立了一个网页，列出了勘误表、示例和任何附加信息。您可以访问https://oreil.ly/build_rec_sys_python_jax 查看该页面。欲了解本社图书和课程的新闻和信息，请访问我们的网站http://oreilly.com。我们的LinkedIn：https://linkedin.com/company/oreilly-media。我们的Twitter：https://twitter.com/oreillymedia。我们的YouTube：http://youtube.com/oreillymedia。致谢Hector 想感谢她的丈夫Donald 在本书写作期间给予的爱与支持，以及姐姐Serena 一直送来的零食。她还想把这本书献给已经去世的亲人。特别感谢Google 评审员Ed Chi、Courtney Hohne、Sally Goldman、Richa Nigam、Mingliang Jiang 和Anselm Levskaya。感谢Bryan Hughes 审阅Wikipedia 代码。Bryan 想感谢他在Stitch Fix 的同事们，在那里他学到了本书中的许多关键理念，特别是Ian Horn 对迁移学习的耐心指导，Dr. Molly Davies 对实验和效应估计的指导，Mark Weiss 对可用性和推荐之间关系的深度合作，Dr. Reza Sohrabi对Transformers 模型的介绍，Dr. Xi Chen 对推荐系统中图神经网络的鼓励，以及Dr. Leland McInnes 对降维和近似最近邻的细心建议。Bryan 从与Dr.Natalia Gardiol、Dr. Daniel Fleischman、Dr. Andrew Ho、Jason Liu、Dr. Dan Marthaler、Dr. Chris Moody、Oz Raza、Dr. Anna Schneider、Ujjwal Sarin、Agnieszka Szefer、Dr. Daniel Tasse、Diyang Tang、Zach Winston 等人的对话中受益匪浅。除了他在Stitch Fix 的出色同事，他特别想感谢Dr. Eric Bunch、Dr. Lee Goerl、Dr. Will Chernoff、Leo Rosenberg 和Janu Verma 多年来的合作。Dr.Brian Amadio 作为出色的同事，最初建议他写这本书。Dr. Even Oldridge 鼓励他尝试写作。Eugene Yan 和Karl Higley，尽管他从未见过他们，但受到了他们的巨大启发。他还想感谢Dr. Zhongzhu Lin 和Dr. Alexander Rosenberg，他们对他的职业生涯产生了深远的影响。Cianna Salvatora 协助了早期的文献回顾，Valentina Besprozvannykh 在阅读早期草稿和提供指导方面提供了极大的帮助。两位作者感谢Tobias Zwingmann、Ted Dunning、Vicki Boykis、Eric Schles、Shaked Zychlinski 和Will Kurt，他们花了大量时间对书稿进行细致的技术反馈，没有他们，这本书将难以理解。感谢Rebecca Novack 不断督促我们签约这个项目。感谢Jill Leonard 删除了书稿中近100 个错误使用的utilize一词，并在书籍文本方面提供了极大的耐心合作。

前言 1
第一部分热身
第1章概述 11
1.1 推荐系统的核心组件 12
1.1.1 收集器 12
1.1.2 排序器 12
1.1.3 服务器 12
1.2 最简单的推荐器 13
1.2.1 简单推荐器 13
1.2.2 很受欢迎的条目推荐器 14
1.3 JAX 的简要介绍 16
1.3.1 基础类型，初始化和不可变性 16
1.3.2 索引和切片 17
1.3.3 广播 18
1.3.4 随机数 19
1.3.5 即时编译 20
1.4 总结 21
第2章用户-物品项评分与问题构建 23
2.1 用户-物品项矩阵 23
2.2 用户-用户协同过滤vs 物品项-物品项协同过滤 27
2.3 Netflix 挑战 28
2.4 隐式评分29
2.5 数据收集与用户日志记录 30
2.5.1 日志记录的内容 30
2.5.2 数据收集与事件记录.34
2.5.3 漏斗分析 35
2.6 业务洞察与用户偏好 37
2.7 总结 38
第3章数学基础 41
3.1 齐夫定律与马太效应在推荐系统中的应用 41
3.2 稀疏性 44
3.3 用户相似性在协同过滤中的应用 46
3.3.1 皮尔逊相关系数 47
3.3.2 基于相似性的评分 48
3.4 探索-利用作为推荐系统 49
3.4.1 - 贪婪算法50
3.4.2 应该设为多少 52
3.5 自然语言处理（NLP）与推荐系统的关系 52
3.5.1 向量搜索 53
3.5.2 最近邻搜索 55
3.6 总结 55
第4章推荐系统设计 57
4.1 离线vs 在线 57
4.2 收集器 59
4.2.1 离线收集器 59
4.2.2 在线收集器 59
4.3 排序器 60
4.3.1 离线排序器 60
4.3.2 在线排序器 60
4.4 服务器 61
4.4.1 离线服务器 61
4.4.2 在线服务器 61
4.5 总结 62
第5章综合实践：基于内容的推荐系统 63
5.1 版本控制软件 64
5.2 Python 构建系统 65
5.3 随机物品推荐器 66
5.4 获取STL 数据集图像 69
5.5 卷积神经网络定义 70
5.6 在JAX、Flax 和Optax 中训练模型 71
5.7 输入管道73
5.8 总结 87
第二部分检索
第6章数据处理 91
6.1 给系统注入数据 91
6.1.1 PySpark 91
6.1.2 例子：使用PySpark 构建用户相似度 96
6.1.3 DataLoaders 101
6.1.4 数据库快照 104
6.2 用于学习和推理的数据结构 105
6.2.1 向量搜索 106
6.2.2 近似最近邻（ANN） 107
6.2.3 布隆过滤器 108
6.2.4 有趣的分支：将布隆过滤器作为推荐系统 110
6.2.5 特征库 111
6.3 总结 115
第7章服务模型和架构 117
7.1 推荐系统的架构设计 117
7.1.1 物品到用户的推荐 118
7.1.2 基于查询的推荐 118
7.1.3 基于上下文的推荐 120
7.1.4 基于序列的推荐 121
7.1.5 为什么需要额外特征121
7.2 编码器架构与冷启动 122
7.3 部署 125
7.3.1 模型作为API 125
7.3.2 启动模型服务 126
7.3.3 工作流编排 128
7.4 警报和监控 130
7.4.1 模式和先验 130
7.4.2 集成测试 132
7.4.3 可观察性 133
7.5 生产环境中的评估 134
7.5.1 慢反馈 134
7.5.2 模型指标 135
7.6 持续训练和部署 136
7.6.1 模型漂移 136
7.6.2 部署拓扑 137
7.7 评估飞轮.140
7.7.1 每日热启动 140
7.7.2 Lamada 架构和编排 141
7.7.3 日志记录 142
7.7.4 主动学习 146
7.8 总结 150
第8章综合实践：数据处理和计数推荐器 151
8.1 技术栈 152
8.2 数据的表现形式 153
8.3 大数据框架 155
8.3.1 集群框架 156
8.3.2 PySpark 示例 157
8.4 GloVE 模型定义 168
8.4.1 在JAX 和Flax 中的GloVE 模型规范 169
8.4.2 使用Optax 进行GloVE 模型训练171
8.5 总结 173
第三部分排序
第9章基于特征和基于计数的推荐 177
9.1 双线性因子模型（指标学习） 177
9.2 基于特征的热启动 181
9.3 分段模型和混合模型 183
9.3.1 基于标签的推荐系统184
9.3.2 混合模型 185
9.4 双线性模型的局限性 186
9.5 计算推荐系统数量 188
9.5.1 返回最热门物品的推荐器（MPIR） 188
9.5.2 关联挖掘 189
9.5.3 通过共现计算点互信息 192
9.5.4 基于共现的相似性度量 193
9.5.5 基于相似度的推荐 194
9.6 总结 195
第10章低秩方法 197
10.1 潜在空间 197
10.2 点积相似度 199
10.3 共现模型 201
10.4 减少推荐系统排名的问题203
10.4.1 利用ALS 优化矩阵分解（MF） 205
10.4.2 矩阵分解的正则化 207
10.4.3 正则化的矩阵因子分解实现 208
10.4.4 WSABIE 233
10.5 降低维度 234
10.5.1 等距嵌入 238
10.5.2 非线性局部可度量化的嵌入 239
10.5.3 中心核对齐241
10.6 亲和力和销售估计器 241
10.7 用于推荐系统评估的倾向性加权 243
10.7.1 倾向 244
10.7.2 辛普森悖论与降低混杂因素的影响 246
10.8 总结 247
第11章个性化推荐度量指标 249
11.1 环境 250
11.1.1 在线与离线 250
11.1.2 用户vs 物品度量指标 251
11.1.3 A/B 测试 252
11.2 召回率和准确率 253
11.2.1 @k 254
11.2.2 在k 的精准率 255
11.2.3 在k 的召回率 256
11.2.4 r- 精准率 256
11.3 mAP, MMR, NDCG 256
11.3.1 mAP 257
11.3.2 MRR 258
11.3.3 NDCG 258
11.3.4 mAP 与NDCG 的对比 260
11.3.5 相关性系数 260
11.4 用RMSE 考虑亲和度 261
11.5 积分形式的指标：AUC 和cAUC 262
11.5.1 推荐概率与AUC-ROC 262
11.5.2 与其他度量指标比较 263
11.6 BPR 263
11.7 总结 264
第12章排名训练 265
12.1 排名在推荐系统中的作用是什么 265
12.2 排序学习 266
12.3 训练一个LTR 模型.267
12.3.1 用于排名的分类 267
12.3.2 用于排名的回归 268
12.3.3 用于排名的分类和回归 269
12.4 加权近似排名对（WARP） 269
12.5 k 阶统计量 271
12.6 很好匹配25（BM25） 272
12.7 多模态检索 275
12.8 总结 276
第13章综合实践：实验与排序 277
13.1 实验提示 277
13.1.1 保持简单 278
13.1.2 调试打印语句 278
13.1.3 推迟优化 279
13.1.4 记录变更 280
13.1.5 使用特征工程 280
13.1.6 理解模型指标与业务指标的区别 281
13.1.7 快速迭代 281
13.2 Spotify 百万播放列表数据集 282
13.2.1 构建URI 字典 284
13.2.2 构建训练数据 286
13.2.3 读取输入 289
13.2.4 建模问题 292
13.2.5 构建损失函数 295
13.3 练习 300
13.4 总结 301
第四部分服务
第14章业务逻辑 305
14.1 硬排序 306
14.2 学习避开项 307
14.3 手工调整权重 308
14.4 库存健康 308
14.5 实现避开项 309
14.6 基于模型的避开项 311
14.7 总结 312
第15章推荐系统中的偏见 313
15.1 推荐的多样化 314
15.1.1 提高多样性314
15.1.2 应用组合优化 316
15.2 多目标函数 317
15.3 谓词下推 318
15.4 公平性 319
15.5 总结 320
第16章加速结构 321
16.1 分片 322
16.2 局部敏感哈希（LSH） 322
16.3 k-d 树 325
16.4 分层k-means 328
16.5 更低成本的检索方法 330
16.6 总结 331
第五部分推荐系统的未来
第17章序列推荐系统 335
17.1 马尔可夫链 336
17.1.1 二阶马尔可夫链 337
17.1.2 其他马尔可夫模型 338
17.2 RNN 和CNN 架构 339
17.3 注意力架构 341
17.3.1 自注意力序列推荐 343
17.3.2 BERT4Rec 343
17.3.3 时效性采样344
17.3.4 合并静态与序列数据 344
17.4 总结 346
第18章推荐系统的下一步发展 347
18.1 多模态推荐 348
18.2 基于图的推荐系统 350
18.2.1 神经消息传递 351
18.2.2 应用 353
18.2.3 随机游走 354
18.2.4 元路径与异构性 355
18.3 LLM 的应用 356
18.3.1 LLM 推荐系统 357
18.3.2 LLM 训练 357
18.3.3 推荐系统的指令调优 360
18.3.4 LLM 排名器 360
18.3.5 推荐系统对AI 的帮助 361
18.4 总结 362

你还可能感兴趣

我要评论