第一篇基础环境设置
实验1Docker容器的管理运用3
1.1实验目标3
1.2实验环境4
1.3相关知识4
1.4任务描述5
1.5实验步骤5
1.6思考题13
实验2Linux基本命令14
2.1实验目标14
2.2实验环境15
2.3相关知识15
2.4任务描述16
2.5实验步骤17
2.6思考题25
第二篇大数据采集与分布式文件存储
实验3网页数据爬取29
3.1实验目标29
3.2实验环境30
3.3相关知识30
3.4任务描述33
3.5实验步骤33
3.6思考题45
实验4Hadoop伪分布式安装46
4.1实验目标46
4.2实验环境48
4.3相关知识48
4.4任务描述48
4.5实验步骤49
4.6思考题60
实验5常用Hadoop命令61
5.1实验目标61
5.2实验环境61
5.3相关知识61
5.4任务描述62
5.5实验步骤62
5.6思考题68
实验6Hadoop分布式集群搭建69
6.1实验目标69
6.2实验环境70
6.3相关知识70
6.4任务描述71
6.5实验步骤71
6.6思考题85
实验7文件采集工具Flume86
7.1实验目标86
7.2实验环境86
7.3相关知识86
7.4任务描述87
7.5实验步骤88
7.6思考题94
第三篇新型数据库管理
实验8数据仓库Hive97
8.1实验目标97
8.2实验环境97
8.3相关知识97
8.4任务描述98
8.5实验步骤98
8.6思考题116
实验9列族数据库HBase117
9.1实验目标117
9.2实验环境117
9.3相关知识117
9.4任务描述119
9.5实验步骤119
9.6思考题129
实验10文档数据库MongoDB131
10.1实验目标131
10.2实验环境131
10.3相关知识131
10.4任务描述132
10.5实验内容132
10.6思考题139
实验11图数据库Neo4j140
11.1实验目标140
11.2实验环境140
11.3相关知识140
11.4任务描述141
11.5实验步骤141
11.6思考题148
第四篇基于Spark的大数据计算
实验12Spark安装部署151
12.1实验目标151
12.2实验环境151
12.3相关知识151
12.4任务描述156
12.5实验步骤:Local模式安装Spark156
12.6实验步骤:Standlone分布式模式安装Spark159
12.7自主实验163
12.8思考题164
实验13SparkRDD编程165
13.1实验目标165
13.2实验环境165
13.3相关知识165
13.4任务描述166
13.5实验步骤166
13.6思考题175
实验14Spark结构化数据处理176
14.1实验目标176
14.2实验环境176
14.3相关知识176
14.4任务描述177
14.5实验步骤177
14.6自主练习190
14.7思考题190
实验15Spark流数据处理191
15.1实验目标191
15.2实验环境191
15.3相关知识191
15.4任务描述192
15.5实验步骤192
15.6思考题198
实验16Spark机器学习199
16.1实验目标199
16.2实验环境199
16.3相关知识199
16.4任务描述200
16.5实验步骤201
16.6自主练习-文本数据处理209
16.7自主练习-图片数据处理210
16.8思考题211
参考文献 212