本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书包含丰富的实践操作和应用案例,以帮助读者更好地学习和掌握数据采集与预处理
随着信息技术的飞速发展,大数据已经成为驱动全球经济转型的关键因素。本书从大数据的基本概念入手,系统介绍了大数据架构、大数据预处理、大数据分析等核心技术,并深入探讨了这些技术在用户行为分析、金融与投资、消费领域及财税与贸易等领域的实际应用。本书内容不仅涵盖了技术层面的详细介绍,还通过丰富的案例分析展示了大数据在实践中的具
本书以Spark3.x和Scala2.x为主线,全面介绍了Spark及其生态体系中常用大数据项目的安装和使用。全书共10章,分别讲解了Scala语言基础、Spark基础、SparkRDD、SparkSQL、HBase、Kafka、SparkStreaming、StructuredStreaming和SparkMLlib
数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
本书简明、系统地介绍了计算机控制技术与系统,主要内容包括:计算机控制系统的概念、组成、分类及发展,计算机控制系统中常用的检测设备和执行机构,计算机总线和网络通信技术,过程通道与人机接口,数据处理与控制策略,计算机控制系统中的抗干扰技术,计算机控制系统软件,典型计算机控制系统,计算机集成制造系统,计算机控制系统的设计与实
本书简要介绍了工业控制网络的发展过程、趋势以及工业控制网络的构成,重点介绍了工业以太网的体系结构、硬件和软件。在此基础上,按照项目介绍了适合高职学生学习的组态软件的应用。本书结合目前工业控制网络的发展,加入工业以太网的新技术介绍,即工业以太网的最新硬件和协议;结合组态软件的发展,介绍目前广泛使用的国产组态软件——Kin
本书以二十多种常用机械设备为例,介绍了设备的用途和发展趋势、机械结构和工艺要求,着重讲解了如何利用自动化、运动控制和驱动系统实现设备的工艺动作,并给出了每种机型对应的自动化与驱动系统解决方案;结合机械设备制造和使用领域人工智能技术的发展现状,介绍了人工智能技术在某些机械设备上的应用;介绍了工业产品、生产设备、自动化与驱
本书是一本涵盖数据安全与隐私保护的综合性教材。书中第一部分(第1、2章)主要介绍数据安全与隐私保护的基础概念与背景,以及数据治理的基本原则与策略;第二部分(第3~6章)介绍隐私保护的关键技术,包括安全多方计算技术、非密码学的隐私保护技术、联邦学习技术、可信执行环境等;第三部分(第7~10章)主要介绍数据安全与隐私保护实
本书是一本全面介绍数据科学理论与实践的综合性教材,旨在向读者展示如何在多样化的数据环境中应用数据科学技术以解决复杂的实际问题。本书的主要内容分为以下两部分:第一部分(第1、2章)主要介绍数据科学与工程的背景、定义、原则和基本概念,以及数据科学基础理论;第二部分(第3~7章)介绍高级应用和案例研究,旨在帮助读者建立数据科
本书是一本系统介绍大数据计算技术及其应用的教材,旨在为读者提供一个全面了解大数据计算领域基本概念、关键技术、系统框架、实际应用等的全景图。全书共9章,主要包括绪论、大数据存储、大数据分析与可视化、大数据计算框架及软件架构、先进大数据计算系统框架、大数据计算系统架构模拟仿真、先进大数据计算系统实现技术、先进大数据计算系统