关于我们
![]() ![]() |
构建数据和机器学习平台 本书的主要内容有:设计现代化和安全的云原生或混合式数据分析和机器学习平台。整合数据到妥善治理、可扩展和有弹性的数据平台,以数据加速创新。实现企业数据访问的民主化,治理业务团队抽取洞察力的方式,并构建AI/ML能力。赋予业务团队用流处理流水线实时决策的能力。构建MLOps平台,采用预测分析和规范性分析方法。 编辑推荐 前言数据平台是什么?你为何需要它?构建数据和机器学习(ML)平台都涉及哪些内容?你为何应该在云端构建平台?做数据和机器学习项目,总会遇到这些常见问题。本书从解答这些问题入手,接着规划平台开发的战略旅程。我们建议你按该旅程在自己的业务中构建数据和机器学习能力。我们将介绍如何执行该战略的每一步,并将所有概念都整合到一个典型的数据现代化案例之中。你为何需要云数据平台?试想贵司首席技术官(CTO)正欲新建一移动端友好的电商网站。我们失去业务,他振振有词道,还不是因为我们网站没适配手机,尤其是没考虑到亚洲语言区的使用习惯。CTO 所讲现有网站在移动端用户体验不佳这一点,首席执行官(CEO)非常认同,但她想弄清楚平台的移动端客户在总客户群中是否形成一个能盈利的细分市场。于是,她给亚洲区运营负责人打电话,询问:我们电商网站手机客户的收入和利润率各是多少?如增加用手机购买的人数,下一年的总收入会有怎样的变化?亚洲区负责人该如何回答这个问题?要回答这个问题,需有能力关联客户访问(确定HTTP 请求的来源)、客户购买(了解他们所购商品)和采购信息(确定所购商品的成本)。除此之外,还要有能力预测细分市场的增长情况。地区负责人要找信息技术(IT)部,请他们从不同数据源拉取必要信息,并编写程序计算这些统计数据吗? IT 部门具备回答这个问题的带宽和做预测分析的技能吗?如该机构拥有数据平台,情况会有多大改善?如有数据平台,所有数据均已采集和清洗到位,全机构可直接拉数据做分析和合成所需数据。数据分析师团队只需运行交互式即席查询。他们还可利用平台内置的AI 能力,轻松预测收入和流量模式,或检索其预测结果,并以数据驱动决策,确定是否响应CTO 的要求,投资建设移动端友好的新站点。为解答CEO 的问题, 可购买和部署一套实时用户监控(real-time user monitoring,RUM)工具。这类专用工具非常多,这种一次性决策都有一款合适的工具。但拥有一个数据平台,机构就能解答很多这样的一次性问题,再无需采购和安装一堆专门解决方案。当今机构日益渴求以数据驱动决策。我们所举例子聚焦的是一次性决策。但在很多情况下,机构期望针对每笔交易都能反复自动决策。例如,机构可能想判断购物车是否有弃车风险,以立即向客户推送低价商品,帮其跨过免运费门槛。这些商品必须能吸引具体的购物者,因而需要扎实的分析和机器学习能力。基于数据作决策,机构需要一个能简化如下工作的数据和机器学习平台:? 获取数据。? 运行交互式即席查询。? 创建报告。? 根据数据自动决策。? 企业服务个性化。为获得上述所有能力,需克服技术障碍。如本书所讲,云平台能减少这些障碍:有了它就能从任何地方访问数据,执行快速、大规模查询,甚至在边缘设备上也可以,而且还能利用提供多种分析和AI 能力的服务。然而,要实现这样一个平台,需多个构建模块,而将这些模块开发和安装到位,有时是一个复杂的旅程。本书旨在帮读者更好地理解这些主要概念、架构模式和可用工具,以搭建现代云数据平台,洞察和控制公司数据,作出更有意义和自动化程度更高的业务决策。我们几位作者都是拥有多年工作经验的工程师,一直在帮不同地区、不同行业的企业构建数据和机器学习平台。这些企业期望从数据获取洞察力,但往往面临很多挑战,难以拿到适合他们快速分析的所有必要数据。因而,他们发现自己必须构建一个现代化数据和机器学习平台。目标读者本书是为那些期望在自己业务中通过利用公有云技术构建数据和机器学习平台来支持数据驱动决策的架构师而写。数据工程师、数据分析师、数据科学家和机器学习工程师,有可能在这些系统上从事开发工作,阅读本书,有助于理解其概念设计。原本就从事数字业务的数字原生公司,数年以来持续构建和开发这类平台,驱动业务决策。早在2016 年,Twitter 公司就曾解释(https://oreil.ly/OwTy4)其数据平台团队维护多个系统,为实现多种业务目标而支持并管理数据的生产和消费,其中包括公开指标、推荐、A/B 测试、广告定向投放等。回到2016 年,其工作还包括维护当时世界上最大的Hadoop 集群。到2019 年,这项工作职责改成将支持云原生数据仓库解决方案(https://oreil.ly/xeud3)也包括在内。再举一例,Etsy 公司表示(https://oreil.ly/4vckj)其机器学习平台团队开发和维护技术基础设施,支持机器学习实验,方便Etsy 机器学习实操者大规模构建原型、训练和部署机器学习模型。Twitter 和Etsy 都已构建现代化数据和机器学习平台。这两家公司的平台不同,支持的数据、员工和业务用例类型也不同,但基本方法非常相似。本书将介绍如何构建可赋予你们工程师如下能力的现代化数据和机器学习平台:? 从多种数据源采集数据,如运营数据库、客户点击流、物联网(IoT)设备、软件即服务(SaaS)应用等。? 打破机构不同部门之间的壁垒。? 摄取数据时或加载数据后处理数据,同时确保处理得法,数据质量高可用,且管理到位。? 例行或即席分析数据。? 用现有AI 模型丰富数据。? 构建机器学习模型,执行预测分析。? 数据操作不仅支持例行处理,还可响应触发事件和阈值。? 传播洞察力,嵌入分析。若到企业从事数据和机器学习模型相关工作,企业将要求你在数据或机器学习平台团队开发的平台上工作,而本书对平台架构方面的考量所作介绍有望带你登堂入室。本书有助于数据工程师、数据分析师、数据科学家或机器学习工程师获得一种高层次的系统设计观。我们的主要经验虽来自谷歌云(Google Cloud)平台,但写作过程努力采用一种云无关的视角来介绍这些架构背后的服务。为此,我们了引入三大云供应商(即亚马逊云服务AWS、微软Azure 和谷歌云)的相关例子,但并不拘泥于这三家。内容编排本书按第2 章将详细介绍的用数据创新的战略步骤编排,分12 章。本书以一个典型应用场景收尾,展示机构该如何走上自己的现代化之旅。第1 章讨论机构为何应构建数据平台。该章还涵盖数据平台的构建方法、技术趋势和核心原则。第2、3 章深入规划构建旅程,确定创新的战略步骤和实施方法。届时,我们将讨论降低总拥有成本(TCO)、打破数据壁垒和利用AI 解锁创新方法等概念。我们还将分析数据生命周期的构建模块,讨论数据团队的设计方法,并推荐一种采用计划。第4 章用迁移框架整合上述内容。第5 ~ 7 章依次讨论数据平台的三种最常用的架构:数据湖、数据仓库和湖仓一体。我们展示从数据湖或数据仓库出发构建湖仓一体的两种方式,并讨论这两种路径该如何选。第8、9 章讨论湖仓一体基本模式的两种常用扩展方法。届时,我们将介绍如何通过引入流式模式提高在上下文的决策速度,实现实时决策,以及如何通过向边缘扩展来支持混合架构。第10、11 章介绍如何在企业环境构建和使用AI 和机器学习,如何设计架构来设计、构建、部署和编排创新模型。这些章节涵盖机器学习预测模型和生成模型。本书第12 章我们将给出一个典型的数据现代化样板旅程,重点阐释如何从遗留架构迁移到新架构,并解释机构选择某种特定解决方案的过程。你若是云架构师,担当为你们业务构建数据和机器学习平台的重任,那么请按顺序阅读本书所有章节。你若是数据分析师,负责创建报告、数据看板和作嵌入式分析,请阅读第1 章、第4 ~ 7 章、第10 章。你若是数据工程师,负责构建数据流水线,请阅读第5 ~ 9 章。其余章节可跳过,后续若对一类特定应用有需求,再将其作为参考。你若是负责构建机器学习模型的数据科学家,请阅读第7、8、10 章和11 章。你若是对机器学习模型运维感兴趣的机器学习工程师,请跳过第1 ~ 9 章,直接研读第10、11 章。排版约定本书排版遵循以下约定:斜体(Italic)表示新术语、URL、邮件地址、文件名和文件扩展名。等宽字体(Constant width)表示程序片段和段落中出现的编程元素,如变量、函数名、数据库、数据类型、环境变量、语句和关键字。使用代码示例本书配套材料请从https://oreil.ly/architecting-data-ml-platforms-code 下载。本书技术问题或代码使用问题,请发电子邮件至:support@oreilly.com。本书旨在帮你完成工作。一般来讲,本书示例代码,你将其用于自己项目和文档,无需联系我们征得许可,但大量复制代码另议。例如,你写程序使用书中多处代码,无需我们授权,但出售或分发OReilly 图书示例代码,则需我们授权。引用本书内容或示例代码回答问题,无需授权。但在你的产品文档中大量使用本书示例代码,则需经我们授权。所用之处,如能添加内容出处,我们将非常感激,当然这并非必须。出处通常要标明书名、作者、出版社和 ISBN 号。例如:Architecting Data and Machine Learning Platforms by Marco Tranquillin, Valliappa Lakshmanan,and Firat Tekiner (OReilly). Copyright 2024 Marco Tranquillin, Valliappa Lakshmanan, and Firat Tekiner, 978-1-098-15161-4.。如果你觉得示例代码的使用方式可能不当或超出上述许可范围,请联系我们,邮箱是 permissions@oreilly.com。OReilly 在线学习平台(OReilly Online Learning)近40 年来,OReilly Media 致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。公司独有的专家和改革创新者网络通过OReilly 书籍、文章以及在线学习平台,分享他们的专业知识和实践经验。OReilly 在线学习平台按照您的需要提供实时培训课程、深入学习渠道、交互式编程环境以及来自OReilly 和其他200 多家出版商的大量书籍与视频资料。更多信息,请访问网站:https://www.oreilly.com/。联系我们任何有关本书的意见或疑问,请按照以下地址联系出版社。美国:OReilly Media, Inc.1005 Gravenstein Highway NorthSebastopol, CA 95472中国:北京市西城区西直门南大街2 号成铭大厦C 座807 室(100035)奥莱利技术咨询(北京)有限公司我们为本书做了一个网页,将勘误信息、示例代码和其他附加信息列在上面。地址是https://oreil.ly/architecting-data-ml-platforms。勘误请发送给errata@oreilly.com.cn。如欲了解更多OReilly 图书、课程、会议和新闻相关信息,请访问以下网站:http://www.oreilly.com。我们的LinkedIn:https://linkedin.com/company/oreilly-media。我们的Twitter:http://twitter.com/oreillymedia。我们的YouTube:http://youtube.com/oreillymedia。致谢编写这样一本书意义深远,因为你分享的不仅是自己的知识,还是你经验结出的硕果,而这些经验是你与很多人并肩奋斗才得来的。写作过程,我们回想起有幸与其共事、向其学习和共同庆祝的朋友。在不违背保密协议的前提下,我们无法一一点名致谢,因此我们只能向包括他们在内的广大数据分析、数据工程和数学科学社区表示深深的感谢。我们由衷感激本书杰出的技术审稿人Sami Akbay、Mike Dahlin、Kevin George、Jonathan Gerhard、Noah Gift、Sanjay Ramchandani、Joseph Reis 和Vicki Reyzelman,他们审阅初稿并提出宝贵的反馈和建议。OReilly 是技术类图书的首选出版方,本书出版团队所表现出来的专业水准便是最好的证明。Megan Laddusaw 指导我们编写引人入胜的大纲。Virginia Wilson 和Melissa Potter 不遗余力管理整个内容开发过程。Gregory Hyman 帮我们打磨出高质量的终稿,甚至还帮我们设计所有插图。感谢你们的大力帮助!Marco:感谢我的好妻子Lara Maria Gessica,她是指路明灯,写作期间,她给予无尽的帮助。感谢我可爱的儿子Walter 和Nicholas 让我生命的每一天都无比精彩。Lak:感谢Abirami 长达25 年的关爱和陪伴。此刻,抗议声弱了下来,但我不会因空巢而让自己承担更多写作任务!Firat:谨以此书献给三位女士,她们持续塑造我的生命,并使这一切成为可能。献给女儿Evre,感谢她的好奇和快乐。献给妻子Yontem,感谢她的坚持。献给母亲Emine Ayla,感谢她对我的信任始终如一。本书英文版版税将全部捐给Girls Who Code(https://girlswhocode.com)机构。其使命是构建一条培养未来女性工程师的大型流水线。数据在各行各业所起作用越来越核心,从业人员的多元化和包容性也越发重要。 Marco Tranquillin是资深顾问,帮机构用云计算实现技术转型。Valliappa Lakshmanan是知名高管,与管理层其他同仁和数据科学团队一起用数据和AI创造价值。Firat Tekiner是创新型产品经理,为全球大型机构开发并交付数据产品和AI系统。 目录
你还可能感兴趣
我要评论
|