本书作为Spark的入门书,从Spark核心编程语言Scala讲起,涵盖当前Spark主流的开发组件。以实操为主,深入讲解每一个操作步骤,包括SparkRDD离线数据处理、SparkSQL快速结构化数据处理、SparkStreaming实时数据处理,同时包括案例讲解、源码剖析、常用Shell命令和JavaAPI详解。即
本书系统地讲解了大数据处理常用技术,具体包括大数据处理架构Hadoop、分布式文件系统HDFS、MapReduce编程模型、分布式数据库Hbase、NoSQL数据库、Spark分布式内存计算、MapReduce应用开发、SparkSQL编程、数据可视化。本书编写特色理论与具体操作相结合,较低基础入门大数据技术。读者对象
本书按照处理数据的逻辑顺序和习惯,从数据的整理开始入手。从数据的抽样开始,介绍了传统统计的抽样理论,并进一步探讨大数据样本的代表性问题。并且通过具体案例向读者介绍整个数据探索性分析的主要步骤。然后是数据的展示技术,也就是常说的数据可视化,从数据的类型以及展示的内容不同,分别介绍了单变量和多变量数据的多种图示方法,数据的
本书以计算机控制技术在智能制造自动化生产线中的应用为核心,以培养学生专业的职业素养、完备的理论知识、扎实的实践操作技能和过硬的思政素质为目标,在工业以太网技术、工业机器人技术、智能视觉识别技术、PLC技术和嵌入式触摸屏技术应用的基础上,按照工业产品智能制造过程规范化和系统化的思想进行课程开发。 全书主要包括四大部分内
本书分7个单元。内容包括:Web数据可视化概述、新能源汽车大数据可视化监测平台、Web基础、前端框架、数据可视化设计基础、数据可视化整合、新能源汽车数据大屏。
这本书的目的是帮助所有人通过R使用ApacheSpark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。
《大数据处理:从采集到可视化》共分为9章,章数据采集,主要介绍了大数据的概念、类型及其特征,常见的数据采集方法;第2章数据清洗,主要讨论数据质量的维度,数据可能存在的质量问题,常见的数据清洗方法;第3章数据ETL,重点介绍了MGO方法;第4章数据存储,主要介绍了大数据时代的一些主流数据存储平台和相关技术;第5章回归算法
《大数据计算机基础(第2版)/大数据分析统计应用丛书》是中国人民大学、北京大学、中国科学院大学、中央财经大学、首都经济贸易大学五所高校联合培养大数据分析硕士实验班的计算机基础教材,目标是培养学生掌握大数据分析处理必备的计算机基础知识与技能。
l数据仓库、大数据、数据科学的简单介绍。l了解企业建立数据湖的各种途径。l探索如何构建自助服务模型,以及如何让分析师便捷访问数据的最佳实践。l使用不同的方法来构建数据湖。l了解不同行业专家实现数据湖的方法。
这是一个大数据爆发的时代。面对信息的激流,多元化数据的涌现,大数据已经为个人生活、企业经营,甚至国家与社会的发展都带来了机遇和挑战,大数据已经成为IT信息产业中最具潜力的蓝海。“大数据导论”是一门理论性和实践性都很强的课程。本书是为高等职业院校大数据技术与应用专业“大数据导论”课程全新设计改编的,是一本具有丰富实践特色