本书的主要内容有:确保数据科学工作流程创造价值。设计可操作的、及时的和相关的指标。提供引人瞩目的叙述以获得利益相关者的支持。使用模拟确保你的机器学习算法是解决该问题的正确工具。识别、纠正和预防数据泄露。通过估计因果效应理解增量性。
编辑推荐
本书提供了一系列在传统数据工程和数据科学教育中被忽视的技术和最佳实践。一个普遍的误解是,优秀的数据科学家是该领域“重大主题”的专家,即机器学习和编程。然而,大多数情况下,这些工具只能帮助我们到达某个程度。实际上,真正区分顶级数据科学家与普通数据科学家的是这些重大主题中的细微差别,以及对业务产生影响的能力。
总体而言,本书使一名普通数据科学家候选人与在行业中表现卓越的数据科学家之间产生了差异。本书作者将这些技能汇集、扩展并应用于为来自不同公司和行业的数据科学家创造价值和培训。
专家推荐
“Daniel又写了一部杰作,作为数据科学家与商业高管之间价值创造的连接纽带。这本书是实现数据科学商业成功所缺失的手册。”
——Adri Purkayastha
Global Head of AI Technology Risk, BNP Paribas
“涵盖了从经济学到广告,再到流行病学的所有内容,以及如何在实践中应用数据科学技术。它从大多数书籍结束的地方开始,即基于数据洞察的实际决策过程。这是任何数据科学家书架上早该添加的作品。”
——Brett Holleman
Freelance data scientist
Daniel Vaughan曾领导不同公司和行业的数据团队,目前正在为几家金融科技公司提供咨询,帮助确保其数据、机器学习和人工智能计划的成功。他拥有超过 15年的机器学习开发经验和超过 8年的数据科学团队领导经验。Daniel 获得了纽约大学经济学的博士学位。
目录
前言 1
第一部分 数据分析技术
第1 章 那又怎样?利用数据科学创造价值 . 11
1.1 价值是什么 11
1.2 是什么:了解业务 12
1.3 所以呢:在DS 中创造价值的要点 .14
1.4 现在怎么办:成为一个积极进取的人 15
1.5 衡量价值16
1.6 关键要点18
1.7 扩展阅读19
第2 章 指标设计 21
2.1 指标应具备的理想属性 .21
2.1.1 可衡量 21
2.1.2 可操作性 .22
2.1.3 相关性 22
2.1.4 及时性 22
2.2 指标分解23
2.2.1 漏斗分析 .23
2.2.2 存量流量分解 24
2.2.3 P×Q 型分解 .25
2.3 例子:另一种收入分解 .25
2.4 例子:市场 26
2.5 关键要点27
2.6 扩展阅读28
第3 章 增长分解:理解顺境与逆境 29
3.1 为什么要进行增长分解 .29
3.2 加法分解30
3.2.1 例子 30
3.2.2 解释和用例 31
3.3 乘法分解32
3.3.1 例子 33
3.3.2 解释 34
3.4 混合比率分解 .34
3.4.1 例子 35
3.4.2 解释 36
3.5 数学推导37
3.5.1 加法分解 .37
3.5.2 乘法分解 .37
3.5.3 混合比率分解 38
3.6 关键要点39
3.7 扩展阅读39
第4 章 2×2 设计 .41
4.1 简化的案例 41
4.2 什么是2×2 设计 .42
4.3 示例:测试模型和新功能 44
4.4 示例:了解用户行为 46
4.5 例子:信贷发放和接收 .48
4.6 示例:确定工作流程的优先级 49
4.7 关键要点50
4.8 扩展阅读51
第5 章 构建商业案例 53
5.1 构建商业案例的一些原则 53
5.2 示例:主动留存策略 54
5.3 欺诈罪预防 56
5.4 购买外部数据集 57
5.5 从事一个数据科学项目 .58
5.6 关键要点58
5.7 扩展阅读59
第6 章 提升度是什么 61
6.1 定义提升度 61
6.2 示例:分类器模型 62
6.3 自选择偏差和幸存者偏差 63
6.4 提升度的其他用途 65
6.5 关键要点65
6.6 扩展阅读66
第7 章 叙述 67
7.1 什么是叙述:用你的数据来讲故事.67
7.1.1 清晰明了的 68
7.1.2 可信的 70
7.1.3 难忘的 71
7.1.4 可操作的 .72
7.2 构建一个故事 .72
7.2.1 科学讲述 .72
7.2.2 什么,那又怎样,现在怎么办 .74
7.3 最后的阶段 75
7.3.1 写TL;DR .75
7.3.2 如何撰写令人难忘的TL;DR .76
7.3.3 示例:为本章节写TL;DR 77
7.3.4 进行有力的电梯演讲.79
7.3.5 展现你的叙述 79
7.4 关键要点80
7.5 扩展阅读81
第8 章 数据可视化:选择正确的图表来传递信息 83
8.1 一些有用的和不太常用的数据可视化 83
8.1.1 条形图和折线图 83
8.1.2 斜线图 85
8.1.3 瀑布图 86
8.1.4 平滑散点图 87
8.1.5 绘制分布 .88
8.2 一般建议90
8.2.1 为你想传达的信息找到正确的图表 90
8.2.2 明智的选择颜色 91
8.2.3 图表中的不同维度 .92
8.2.4 争取足够大的数据墨水比率 .92
8.2.5 定制与半自动化相比.93
8.2.6 从一开始就确定正确的字体大小 93
8.2.7 交互的或者静态的 .94
8.2.8 保持简单 .94
8.2.9 从解释图表开始 95
8.3 关键要点95
8.4 扩展阅读95
第二部分 机器学习
第9 章 模拟法和自助法 .99
9.1 基本的模拟 100
9.2 模拟线性模型和线性回归 .103
9.3 什么是部分依赖图 .105
9.4 遗漏变量偏差 110
9.5 模拟分类问题 113
9.5.1 潜在变量模型 .113
9.5.2 比较不同算法 .114
9.6 自助法 . 116
9.7 关键要点. 119
9.8 扩展阅读.120
第10 章 线性回归:回到基础 121
10.1 什么是系数 .121
10.2 Frisch-Waugh-Lovell 定理 125
10.3 为什么你应该关心FWL 128
10.4 干扰因子 129
10.5 额外变量 131
10.6 在机器学习中变化是中心角色 .133
10.7 关键要点 137
10.8 扩展阅读 138
第11 章 数据泄露 141
11.1 什么是数据泄露 141
11.1.1 结果也是一个特征 142
11.1.2 特征是结果的函数 142
11.1.3 不良控制变量 142
11.1.4 时间戳标记错误 .143
11.1.5 具有不规则时间聚合的多个数据集 .143
11.1.6 其他信息的泄露 .144
11.2 检测数据泄露 145
11.3 完全分离 147
11.4 窗口方法 149
11.4.1 选择窗户的长度 .151
11.4.2 训练阶段与评分阶段相对应 .152
11.4.3 实现窗口方法 153
11.5 有数据泄露了:现在怎么办 154
11.6 关键要点 155
11.7 扩展阅读 155
第12 章 生产化模型 . 157
12.1 “生产就绪”是什么意思157
12.1.1 批量评分(离线) 158
12.1.2 实时模型对象 160
12.2 数据和模型漂移 161
12.3 任何生产流程中的基本步骤 163
12.3.1 获取和转换数据 .163
12.3.2 验证数据 164
12.3.3 训练和评分阶段 .166
12.3.4 验证模型和评分 .166
12.3.5 部署模型和评分 .167
12.4 关键要点 167
12.5 扩展阅读 168
第13 章 机器学习中的故事讲述 171
13.1 机器学习故事讲述的全过程 171
13.2 事前和期间讲故事 172
13.2.1 提出假设 173
13.2.2 特征工程 176
13.3 事后讲故事:打开黑盒子179
13.3.1 可解释性和性能的权衡 179
13.3.2 线性回归:设置一个基准 .181
13.3.3 特征重要性183
13.3.4 热图 185
13.3.5 部分依赖图187
13.3.6 累积局部效应 189
13.4 关键要点 191
13.5 扩展阅读 192
第14 章 从预测到决策 . 195
14.1 剖析决策制定 196
14.2 明智的阈值产生简单的决策规则 197
14.2.1 精确率和召回率 .198
14.2.2 例子:潜在客户生成 200
14.3 混淆矩阵优化 202
14.4 关键要点 204
14.5 扩展阅读 204
第15 章 增量:数据科学的圣杯 205
15.1 定义增量 205
15.1.1 从因果推理到提升预测 206
15.1.2 因果推理作为差异化因素 .206
15.1.3 提升决策制定 207
15.2 干扰因子和对撞因子 .207
15.3 选择偏差 211
15.4 无混淆假设 .215
15.5 打破选择偏差:随机化 216
15.6 匹配 217
15.7 机器学习和因果推理 .220
15.7.1 打开源代码库 221
15.7.2 双重机器学习 222
15.8 关键要点 224
15.9 扩展阅读 225
第16 章 A/B 测试 229
16.1 什么是A/B 测试 229
16.2 决策标准 230
16.3 最小可检测效应 234
16.3.1 选择统计功效、显著性水平和P 值 .237
16.3.2 估计结果的方差 .238
16.3.3 模拟 239
16.3.4 例子:转换费率 .240
16.3.5 设置MDE .241
16.4 假设列表 242
16.4.1 指标 243
16.4.2 假设 243
16.4.3 排名 243
16.5 实验治理 244
16.6 关键要点 245
16.7 扩展阅读 246
第17 章 大型语言模型和数据科学实践 . 249
17.1 当前人工智能的状态 .249
17.2 数据科学家们做什么 .251
17.3 不断演变的数据科学家职位描述 253
17.3.1 案例学习:A/B 测试 255
17.3.2 案例学习:数据清理 256
17.3.3 案例学习:机器学习 256
17.4 LLM 和本书 257
17.5 关键要点 258
17.6 扩展阅读 259