本书是校企合作的成果,以大数据平台运维岗位的实际工作为核心,采用任务驱动方式,全面介绍了 Hadoop 集群的安装、监控和优化等关键技能。内容涵盖了从集群搭建到节点维护、分布式文件存储操作、计算资源管理,再到集群调优和应用组件调优,以及应用组件的安装与检验等多个方面。本书遵循“实践为主、理论为辅、注重实用性”的教育理念,在实际操作中融入理论知识点,帮助读者更好地学习和掌握大数据分析与处理的关键技能。本书适合具备一定计算机基础的读者阅读,可作为中等职业学校、高职高专计算机相关专业的教学用书,也可作为大数据技术培训的实训教材,同时可供相关技术领域的技术人员参考使用。
刘珊珊,副教授,广东财贸职业学院教师,广东省计算机用户协会移动互联专委会委员。广东省计算机学会移动互联网专业委员会常务委员,省级"软件技术高水平专业群”负责人,省级软件技术二类品牌专业负责人,主持广东省教育厅2019年度广东省普通高校重点科研平台和项目,在研,主持;主持广东省高职教育信息技术教指委教研教改项目2项,均已结题;主持校级"软件技术专业教学创新团队”"软件技术专业教学资源库”等多项大型项目。
第一单元 Hadoop 集群的搭建 ……………………………………………………………… 1
任务 1 认识 Hadoop …………………………………………………………………… 2
1. 知识准备 ………………………………………………………………………… 2
2. 课后实训 ………………………………………………………………………… 5
任务 2 大数据服务云体验 ……………………………………………………………… 8
1. 知识准备 ………………………………………………………………………… 8
2. 任务实操 …………………………………………………………………………12
3. 课后实训 …………………………………………………………………………15
任务 3 搭建 Hadoop 完全分布式集群 …………………………………………………17
1. 知识准备 …………………………………………………………………………17
2. 任务实操 …………………………………………………………………………19
3. 课后实训 …………………………………………………………………………36
第二单元? Hadoop 集群节点的运行维护 ………………………………………………… 41
任务 1 管理 Hadoop 集群节点运行 ……………………………………………………42
1. 知识准备 …………………………………………………………………………42
2. 任务实操 …………………………………………………………………………49
3. 课后实训 …………………………………………………………………………55
任务 2 解决集群运行中的 DataNode 故障 ……………………………………………58
1. 知识准备 …………………………………………………………………………58
2. 任务实操 …………………………………………………………………………61
3. 课后实训 …………………………………………………………………………62
任务 3 集群启动失败 ……………………………………………………………………66
1. 知识准备 …………………………………………………………………………66
2. 任务实操 …………………………………………………………………………69
Hadoop 大数据技术体系
3. 课后实训 …………………………………………………………………………77
第三单元? Hadoop 集群文件的存储管理 ………………………………………………… 86
任务 1 使用 Shell 命令操作 HDFS ……………………………………………………87
1. 知识准备 …………………………………………………………………………87
2. 任务实操 …………………………………………………………………………93
3. 课后实训 …………………………………………………………………………97
任务 2 合并 HDFS 小文件 …………………………………………………………… 101
1. 知识准备 ……………………………………………………………………… 101
2. 任务实操 ……………………………………………………………………… 103
3. 课后实训 ……………………………………………………………………… 106
任务 3 解决集群故障 ………………………………………………………………… 109
1. 知识准备 ……………………………………………………………………… 109
2. 任务实操 ……………………………………………………………………… 114
3. 课后实训 ……………………………………………………………………… 125
第四单元? Hadoop 集群计算资源的管理 ………………………………………………… 128
任务 1 使用 MapReduce 组件 ……………………………………………………… 129
1. 知识准备 ……………………………………………………………………… 129
2. 任务实操 ……………………………………………………………………… 133
3. 课后实训 ……………………………………………………………………… 138
任务 2 使用 Yarn 组件 ……………………………………………………………… 143
1. 知识准备 ……………………………………………………………………… 143
2. 任务实操 ……………………………………………………………………… 156
3. 课后实训 ……………………………………………………………………… 163
第五单元? 组件的安装与应用……………………………………………………………… 167
任务 1 安装与应用 Flume 组件 ……………………………………………………… 168
1. 知识准备 ……………………………………………………………………… 168
2. 任务实操 ……………………………………………………………………… 171
3. 课后实训 ……………………………………………………………………… 176
任务 2 安装与应用 Hive 组件 ……………………………………………………… 180
1. 知识准备 ……………………………………………………………………… 180
2. 任务实操 ……………………………………………………………………… 185
3. 课后实训 ……………………………………………………………………… 195
第六单元? 集群调优和应用组件调优……………………………………………………… 201
1. 知识准备 ……………………………………………………………………… 202
2. 课后实训 ……………………………………………………………………… 209