一本为渴望系统理解数据科学全貌的读者所写的指南。数据科学致力于从海量数据中提取有价值且非显而易见的模式。本书对数据科学这一新兴领域进行了系统梳理,以简洁的笔触勾勒出其发展脉络、与机器学习的关联、当前应用场景、数据基础设施现状及面临的伦理挑战。
全书从数据科学的演进历程说起,解析了基础数据概念,并详细阐述数据科学生命周期的各个阶段,继而深入探讨数据基础设施的关键问题,以及多源数据整合过程中面临的技术挑战。同时,本书还对数据伦理与法律规范、数据监管机制演进趋势及隐私保护计算技术进行了专业解读。最后,通过前瞻性探讨数据科学的未来发展方向,总结了保障数据科学项目成功实施的关键原则。
1.系统思维。助你建立坚实的数据科学认知框架,掌握从问题定义到模型落地的系统性思维。
2.超越理论。直指数据实践中的真实挑战,揭示工程现实如何决定项目成败。
3.实战导向。提炼7大项目成功原则,提供从问题定义到业务整合的完整行动清单。
4.前瞻视野。直面数据偏见与隐私伦理挑战,培养负责任的、面向未来的数据素养。
【作者介绍】
约翰·D. 凯莱赫(John D. Kelleher),爱尔兰都柏林理工大学计算机科学学院教授,兼任信息、通信和娱乐研究所学术负责人。合著有《预测数据分析的机器学习基础》(麻省理工学院出版社)。
布伦丹·蒂尔尼(Brendan Tierney),爱尔兰都柏林理工大学计算机科学学院讲师,兼任Oracle ACE 总监,撰有多部基于Oracle技术的数据挖掘著作。
【译者介绍】
张里博,西南大学人工智能学院智能科学系主任、副教授,南京大学特聘研究员,主要从事人工智能、大数据与智能决策等方面的研究。
杨金瑞,澳大利亚麦考瑞大学计算机科学硕士。
第一章 什么是数据科学 001
第二章 什么是数据和数据集 033
第三章 数据科学生态系统 055
第四章 机器学习入门 077
第五章 标准数据科学任务 119
第六章 隐私与伦理 141
第七章 未来趋势与成功之道 169
致 谢 184
术语表 185
注 释 193
延伸阅读 197
参考文献 199
索 引 207