文本挖掘与信息检索是近年来人工智能领域的热点研究方向。本书共分8章,包括信息检索概述、信息检索模型、信息检索的评价、文本分类技术、文本聚类技术、自动摘要技术、文本推荐技术和网页链接分析,融合了统计学、机器学习、数据库等知识,具有多学科交叉的特点。
本书的主要内容有:提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入,探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。JensAlbrecht是纽伦堡理工学院计算机科学系的全职教授。主要从事数据管理与分析领域
本书分为六章,具体如下:第一章导论,介绍虚假信息定义及威胁、产生虚假信息的原因、社交机器账户的兴起等;第二章虚假信息传播的研究现状,包括传播的参与者、传播的内容、传播的网络与模型等;第三章基于新闻源的虚假信息采集与追踪系统,包括系统原理、系统模型与实现、系统可行性的再验证、系统部署与数据统计等,第四章基于k-核的网络剖
本书重点介绍收集、分析和解释数据所需的关键技能,以及成为优秀数据科学家的基本原则,特别强调分析数据时什么是真正重要的内容。本书从底层逻辑出发,由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(包括统计分析、可视化、数学模型、线性回归、logistic回归、机器学习算法等)以及学习大数据分
本书从计算机控制系统的信号转换开始,详细阐述了计算机控制系统的建模、性能分析、控制器设计及控制系统仿真与实现的理论、方法和实用技术。
本书简要阐述了数据治理的基本概念及相关理论,侧重于数据质量管理和数据集成两方面,介绍相关基本理论的同时,详细描述了自主研发的数据质量管理系统和多源数据汇集处理系统。基于这些数据治理软件,结合具体的实际案例,详细描述了数据质量管理与数据集成的典型功能。本书案例内容丰富,步骤翔实具体,有助于读者在理解数据质量管理和数据集成
本书内容按照数学知识的由浅入深分成了四个部分。基本分析部分介绍了非线性系统的基本概念和基本分析方法;反馈系统分析部分介绍了输入输出稳定性、无源性和反馈系统的频域分析;现代分析部分介绍了现代稳定性分析的基本概念、扰动系统的稳定性、扰动理论和平均化以及奇异扰动理论;非线性反馈控制部分介绍了反馈控制的基本概念的反馈线性化,并
本书系统梳理总结ApacheHadoop大数据相关技术,介绍大数据存储、并行计算、数据处理等内容,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域进行更深入的学习和研究奠定基础、指明方向。
本书基础理论和案例分析相结合,全面介绍了大数据技术的基础知识,以提升读者对大数据的认知。全书共11章,内容包括大数据概述、大数据时代的思维变革、大数据的采集与存储、数据可视化、支撑大数据的技术、商业大数据、民生大数据、工业大数据、政务大数据、安全大数据和大数据的未来。本书既可作为全国高等学校计算机及相关专业“大数据导论
《精通Hadoop3》详细阐述了与Hadoop3相关的基础知识,主要包括Hadoop3简介、深入理解Hadoop分布式文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SQL、实时处理引擎、Hadoop生态圈组件、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习