本书分为理论篇、工具篇和实训篇。理论篇主要介绍数据挖掘的基础知识、基本任务和常用方法,侧重培养学生对于数据挖掘基本概念等理论知识的正确理解;工具篇主要介绍PMT这一的数据挖掘工具,通过功能简介、分类预测认知实验等内容,侧重培养学生对于数据挖掘基本操作的准确认知;实训篇主要介绍了七个来自实际企业需求的大数据挖掘案例,侧重
本书系统介绍了Hadoop生态系统的核心开发技术,包括:Hadoop大数据技术概述、Hadoop开发及运行环境搭建、HDFS分布式文件系统、MapReduce分布式计算技术框架、Hadoop的文件I/O以及YARN资源管理器、Zookeeper分布式协调服务、Hadoop分布式集群搭建与管理、Hive数据仓库和HBas
本书针对愿意加入大数据行业的初学者量身定做,以简练风趣的语言介绍了大数据程核心技术及相关案例。内容包括了数据的基本概念、Hadoop的安装与配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis,每个知识点配有可运行的案例,同时结合企业实
本书从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0到1地开发一个大
线性延迟反馈控制使非线性系统产生了非常复杂的行为,包括混沌和分岔,延迟产生的混沌具有理论上的无穷维,可能通过简单的方法获得超混沌吸引子。针对线性延迟反馈的混沌产生机理,包括局部分岔,全局分岔,拓扑马蹄等一系列问题进行了较为深入的分析,同时对混沌的应用,如通信应用,加密应用和压实机械中的应用都进行了深入的研究,这些研究成
随着计算机和互联网技术的飞速发展和广泛普及,互联网已经成为人类获取知识的最大平台。在爬取了Web网页语料后,需要通过数据预处理和数据分析来获取数据的价值,从而造福人类,推动社会发展。本书主要是Web大数据预处理和数据分析的实战指南,内容包括三部分:基础知识、基于Python的数据预处理、基于Python的数据分析
决策问题中存在大量的冗余信息,而且很多信息都具有不确定性,面对这些杂乱无章的海量数据,决策者需花费大量时间分析,以至于可能错失决策良机,因此研究具有不确定性的决策问题中冗余信息约简是决策者亟待解决的关键问题。目前软集合方法能够较好地处理不确定决策问题,但软集合约简方法目前还不完善,致使对海量数据很难做出决策。本书主要以
天津滨海迅腾科技集团有限公司编著的《大数据高可用环境搭建与运维(企业级人才培养解决方案十三五规划教材)》主要涉及11个项目,即大数据分布式集群、分布式集群基础配置、ZooKeeper分布式协调系统、Hadoop高可用、Hive分布式数据仓库工具、HBase分布式数据库、大数据协作框架、Linux自动化部署、Ambari
本书将大数据技术生态圈主流技术框架的应用与发展、搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS(HadoopDistributedFileSystem)、大数据分布式并行计算框架MapReduce、大数据汽车销售数据统计分析项目5大模块分为11章内容进行阐述。具体分布情况如下:第1章是大数据概论
本书采用理论与实践相结合的方式,全面介绍了Hadoop大数据技术。主要内容包括初识Hadoop大数据技术、Hadoop环境配置,分布式文件系统HDFS、资源调度框架YARN、分布式计算框架MapReduce、大数据数据仓库Hive、分布式数据库HBase、查询大型半结构化数据集的语言Pig、分布式日志采集工具Flume