数据标注乃至人工智能行业的发展关键在于专业人才的培养。在未来几十年,数据标注会伴随着人工智能需求的不断提高而不断发展。本书对数据标注、数据处理、项目管理、问句复述标注、拼音停顿标注和3D点云标注进行逐一讲解和分析,每种标注类型均配有对应的规范、举例分析、习题与解析。本书还针对各类标注类型配套了多种子任务类型或多个领域的实操练习题,目的是帮助数据标注学习者掌握相关知识,从而实现系统、完整的数据标注技能学习和实战练习。
张熠天,国家工业信息安全发展研究中心高级工程师,教育部计算机行业指导委员会委员、中国中文信息学会智能写作专委会委员、中国智能写作联盟秘书长、清华大学战略与安全研究中心客座研究员、清华大学人工智能国际治理中心项目主任。政策研究方面:支撑国安委某战略性文件、作为主要起草者参与中央深改组《关于促进人工智能和实体经济深度融合的指导意见》,工信部《促进新一代人工智能产业发展三年行动计划(2018-2020)》起草。技术及理论研究方面:牵头多部委的研究课题和重点专项,在人工智能技术图谱,智能语音、NLP、智能写作等方向著有研究成果,研究成果曾获工信部优秀科研成果一等奖。国际治理方面:中美二轨谈判专家组成员、中美欧人工智能巴黎对话中方代表。
目录
第 1 章 数据处理技术基础 001
1.1 数据清洗 002
1.1.1 数据清洗的常见操作 002
1.1.2 数据清洗操作详解 003
1.2 数据安全 011
1.2.1 数据安全的概念 011
1.2.2 数据安全措施的制定流程 012
1.2.3 保证数据安全的手段 014
1.3 实训习题 017
本章小结 017
第 2 章 项目管理进阶 019
2.1 项目规划设计 019
2.1.1 何为项目规划 020
2.1.2 项目规划的流程 020
2.1.3 项目规划的内容 021
2.1.4 标注项目规划 023
2.2 标注项目需求分析 030
2.2.1 需求 031
2.2.2 需求分析 032
2.2.3 标注项目需求分析详解 034
2.3 标注流程设计 042
2.3.1 标注流程 043
2.3.2 标注流程设计原则 046
2.3.3 标注流程中常见环节关注点及其设计 048
2.3.4 标注流程中的“技术赋能”操作 054
2.3.5 标注流程设计中的误区 055
2.4 标注规范设计 057
2.4.1 为什么要设计标注规范 057
2.4.2 标注规范设计原则 059
2.4.3 标注规范的设计 060
2.4.4 标注规范设计中的误区 063
2.5 标注系统设计 064
2.5.1 为什么要设计标注系统 064
2.5.2 标注系统设计原则 066
2.5.3 标注系统的设计 068
2.5.4 标注系统部分标注类型标注页面设计方案对比分析 073
2.5.5 标注系统中的智能化操作 078
2.6 标注项目培训 080
2.6.1 标注项目培训的内容 080
2.6.2 标注项目培训的方式 082
2.6.3 标注项目培训的基本过程 083
2.6.4 标注项目培训方案的制定 085
2.6.5 标注项目培训需要特别关注的关键内容 088
2.7 实训习题 089
本章小结 090
第 3 章 问句复述标注 092
3.1 认识问句复述 092
3.1.1 问句复述的意义 093
3.1.2 问句复述中需要明确的概念 093
3.2 问句复述标注实战 094
3.2.1 问句复述标注规范 095
3.2.2 案例分析 102
3.3 实训习题 103
本章小结 103
第 4 章 3D 点云标注 105
4.1 认识 3D 点云 105
4.1.1 什么是 3D 点云 105
4.1.2 3D 点云的常见应用领域 106
4.1.3 3D 点云相关研究内容 108
4.2 什么是 3D 点云标注 108
4.3 3D 点云标注实战 111
4.3.1 3D 点云标注规范 111
4.3.2 案例分析 129
4.4 实训习题 130
本章小结 131
第 5 章 语音合成——拼音停顿标注 132
5.1 认识语音合成及其相关标注类型 132
5.1.1 语音合成技术 133
5.1.2 语音合成技术中的标注类型 134
5.2 拼音停顿标注实战 135
5.2.1 拼音停顿标注规范 135
5.2.2 案例分析 147
5.3 实训习题 147
本章小结 148
第 6 章 数据处理实战 149
6.1 问句复述原始数据处理实战 149
6.1.1 处理规则 150
6.1.2 清洗实例 151
6.2 音频数据预处理 153
6.2.1 音频数据处理要求 153
6.2.2 音频数据处理步骤 154
6.3 实训习题 163
本章小结 163
附录 A 165