大数据技术与应用实验指导书_靳大尉崔静_9787576721799

《大数据技术与应用实验指导书》以大数据的采集、存储、管理、处理和分析建模的处理流程为顺序，设计了16个实验，全面涵盖了Linux操作系统Docker虚拟化技术、网页爬虫、Flume文件采集、HDFS分布式文件系统、Hive数据仓库、MongoDB文档数据库、HBase列族数据、Neo4j图数据库，以及基于Spark的RDD编程、结构化数据分析、流数据处理和机器学习等内容。
《大数据技术与应用实验指导书》适合作为本科层次大数据专业课程配套的实验教材，用于指导学生上机实践，也可供对大数据技术感兴趣的技术人员参考。

第一篇基础环境设置
实验1Docker容器的管理运用3
1.1实验目标3
1.2实验环境4
1.3相关知识4
1.4任务描述5
1.5实验步骤5
1.6思考题13
实验2Linux基本命令14
2.1实验目标14
2.2实验环境15
2.3相关知识15
2.4任务描述16
2.5实验步骤17
2.6思考题25

第二篇大数据采集与分布式文件存储
实验3网页数据爬取29
3.1实验目标29
3.2实验环境30
3.3相关知识30
3.4任务描述33
3.5实验步骤33
3.6思考题45
实验4Hadoop伪分布式安装46
4.1实验目标46
4.2实验环境48
4.3相关知识48
4.4任务描述48
4.5实验步骤49
4.6思考题60
实验5常用Hadoop命令61
5.1实验目标61
5.2实验环境61
5.3相关知识61
5.4任务描述62
5.5实验步骤62
5.6思考题68
实验6Hadoop分布式集群搭建69
6.1实验目标69
6.2实验环境70
6.3相关知识70
6.4任务描述71
6.5实验步骤71
6.6思考题85
实验7文件采集工具Flume86
7.1实验目标86
7.2实验环境86
7.3相关知识86
7.4任务描述87
7.5实验步骤88
7.6思考题94

第三篇新型数据库管理
实验8数据仓库Hive97
8.1实验目标97
8.2实验环境97
8.3相关知识97
8.4任务描述98
8.5实验步骤98
8.6思考题116
实验9列族数据库HBase117
9.1实验目标117
9.2实验环境117
9.3相关知识117
9.4任务描述119
9.5实验步骤119
9.6思考题129
实验10文档数据库MongoDB131
10.1实验目标131
10.2实验环境131
10.3相关知识131
10.4任务描述132
10.5实验内容132
10.6思考题139
实验11图数据库Neo4j140
11.1实验目标140
11.2实验环境140
11.3相关知识140
11.4任务描述141
11.5实验步骤141
11.6思考题148

第四篇基于Spark的大数据计算
实验12Spark安装部署151
12.1实验目标151
12.2实验环境151
12.3相关知识151
12.4任务描述156
12.5实验步骤：Local模式安装Spark156
12.6实验步骤：Standlone分布式模式安装Spark159
12.7自主实验163
12.8思考题164
实验13SparkRDD编程165
13.1实验目标165
13.2实验环境165
13.3相关知识165
13.4任务描述166
13.5实验步骤166
13.6思考题175
实验14Spark结构化数据处理176
14.1实验目标176
14.2实验环境176
14.3相关知识176
14.4任务描述177
14.5实验步骤177
14.6自主练习190
14.7思考题190
实验15Spark流数据处理191
15.1实验目标191
15.2实验环境191
15.3相关知识191
15.4任务描述192
15.5实验步骤192
15.6思考题198
实验16Spark机器学习199
16.1实验目标199
16.2实验环境199
16.3相关知识199
16.4任务描述200
16.5实验步骤201
16.6自主练习－文本数据处理209
16.7自主练习－图片数据处理210
16.8思考题211

参考文献 212

你还可能感兴趣

我要评论