本书以电商网站中的用户行为数据作为数据源,系统地介绍了如何使用Spark生态系统进行大数据离线分析和实时分析的方法。全书共7章,分别讲解了项目需求、项目架构、项目实现流程、大数据集群环境搭建、热门品类Top10分析、各区域热门商品Top3分析、网站转化率统计、广告点击流实时统计和使用FineBI实现数据可视化。本书附有
内容简介这是6位来自多个大厂的大数据工程师联合力扣撰写的,深度解读大数据算法面试母题的求职手册。本融合了几位作者总计数百次面试他人和被他人面试的经验,结合对大厂招聘的真实需求,深度解读精选自力扣的近百道具有代表性的算法题。这些题目覆盖了几乎所有大数据从业者需要掌握的算法题类型,它们有的来自力扣多年的专业沉淀,有的来自各
本书内容分七大模块:大数据概述、开发环境搭建、大数据采集(爬取)、大数据分析、数据建模与数据挖掘、数据可视化以及大数据分析挖掘综合案例。开发环境采用Python语言环境,详细讲解爬虫技术原理、python爬虫第三方库、scrapy爬虫框架等。大数据分析部分讲解Numpy和Pandas。数据建模与数据挖掘模块讲解相关性与
"本书系统地介绍了生产过程控制系统与自动化仪表的理论和工作原理、过程系统的建模、简单过程系统及串级、复杂过程控制系统的分析与设计、先进控制系统等内容。本书从基本概念出发,循序渐进、每章开始扼要提出了本章教学内容和应达到的基本要求,配合每章末的习题及最后一章的仿真实例、深入浅出地阐明过程控制系统的特点,使学生掌握过程控制
数据治理与认知安全在推动国家发展、保障国家安全、维护社会稳定和促进经济高质量发展等方面具有不可替代的重要作用。本书覆盖数据治理与认知安全两部分内容。数据治理包含数据治理体系、数据处理方法和数据合规审计三方面内容,主要关注数据的采集、清洗、集成、标注、增强和分析等规范化的管理过程,确保数据在整个生命周期中保持高质量、一致
本书共8章,分别讲解了Spark基础知识、Spark部署、SparkRDD、SparkSQL、SparkStreaming、Kafka、StructuredStreaming和SparkMLlib,并在最后完整开发了一个在线教育学生学习情况分析系统,帮助大家巩固前面所学的内容。
本书内容主要分为四部分,前7章为第1部分,描述如何质疑、审查证据,如何收集、分析并处理缺失数据,避免数据操控等。第2部分为第8-11章,讨论数据呈现中的问题并通过创新方法取得研究新发现。第3部分为第12-17章,聚焦教育领域,再次利用证据证明了发现似实谬误之易,第4部分为结论。
在数字化和智能化逐渐成为工业发展主流的背景下,《工业控制网络》一书为读者提供了一个全面而系统的指南,涵盖了现场总线、工业以太网、Modbus控制网络及无线通信技术等关键领域。全书共分为12章,从基础理论到实际应用案例,深入探讨了工业控制网络的核心技术及其广泛应用,旨在帮助读者掌握如何提高生产效率、降低成本和实现灵活管理
这是一本讲解在数据要素大背景下,企业如何将数据资源开发成数据产品,进而通过数据产品实现数据资产化和资本化的著作,为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会(DAC)组织编写,融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验,得到了湖南数据产业集团、广州数据集团
本书提供了关于如何在数据治理中建立和运行数据认责工作的适用且可操作的信息和说明,旨在为新任数据专员或数据治理经理提供在数据认责方面所需的知识,以确保其工作有效和高效。本书分为11章,包括:数据认责和数据治理:二者如何结合;了解数据认责的类型;认责管理的角色和职责;实施数据认责;培训业务型数据专员;数据认责实践;数据专员