本书主要讲解了Hadoop大数据开发基础与实战的相关内容,全书共11章,其中第1章为初识Hadoop,第2章为Hadoop集群的搭建,第3章为分布式协调框架ZooKeeper,第4章为分布式文件系统HDFS,第5章分布式计算框架MapReduce,第6章为YARN框架与HA模式,第7章为数据仓库Hive,第8章为分布式
本书属于数据挖掘领域的著作,从数据挖掘基本知识入手,简要阐述了数据预处理技术,在此基础上深入研究了关联规则、聚类分析、分类规则、时间序列挖掘等数据挖掘等核心技术;此外,本书还关注了复杂类型数据的挖掘,最后分析了数据挖掘技术在金融、教育、医疗等关键行业中的实际应用。
本书属于大数据分析领域的学术专著,由理论基础、数据处理技术、算法应用、模型创新及案例分析等部分组成。全书以大数据技术的发展趋势、处理算法与应用模型为研究对象。深入分析了大数据环境下的数据采集、存储、处理及挖掘技术,提出了针对海量数据处理的优化算法和模型。特别关注了机器学习、深度学习在大数据分析中的应用,探讨了它们在不同
本书是一本面向数据分析初学者、进阶从业者及管理者的实用指南。本书通过系统化的学习路径和丰富的案例,全面介绍了DeepSeek这款AI工具在数据分析中的应用。书中从数据分析的基础概念入手,详细讲解了数据分析的目的、流程和常用工具,强调了数据分析在企业决策中的重要性。通过实际案例分析,展示了DeepSeek如何通过自
本书主要介绍数据科学中数据准备阶段常用的数据处理方法。全书内容分为五个部分:数据准备概览、数据清理、数据变换、数据归约和案例分析。本书注重方法的原理及其应用,在方法原理引介部分强调重要的统计学思想,在方法应用部分强化数据思维和数据处理规范。
本书以Python为基础,深入讲解HDFS分布式文件系统和PySpark3编程。全书共9章,内容包括Docker环境下Hadoop与Spark的配置、HDFS操作技巧、RDD编程方法、SparkSQL应用、Spark架构及运行机制、PandasonSpark使用及SparkML编程实践。本书通过实际操作案例,帮助读者掌
内容简介这是一本指导各类型组织科学构建数据体系,并通过对数据体系的管理和运营让数据实现价值转化的实战性著作,是作者在数字化领域近20年工作经验的总结。本书深度剖析了数字化时代数据体系建设的关键要素与实施路径,系统而全面地介绍了数据体系建设的方法论、框架与实战案例。从全面认识数据与数据要素的价值出发,逐步深入探讨了数据管
本书是校企合作的成果,以大数据平台运维岗位的实际工作为核心,采用任务驱动方式,全面介绍了Hadoop集群的安装、监控和优化等关键技能。内容涵盖了从集群搭建到节点维护、分布式文件存储操作、计算资源管理,再到集群调优和应用组件调优,以及应用组件的安装与检验等多个方面。本书遵循“实践为主、理论为辅、注重实用性”的教育理念,在
本书从学生的认知规律出发,“由简单到复杂、由单一到综合”循序渐进地编排项目,第一部分为智能控制系统方案设计;第二部分为单机智能控制系统开发,共设有SEEElectrical软件应用、MCGS应用、变频器应用、步进电动机及伺服电动机应用等6个学习型项目;第三部分为联网智能控制系统设计,共设有智能饲喂控制系统安装与调试等6
本书系统地介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共13章,内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink