这是一本将数据科学三要素商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。 全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从
本书将通过具有中国特色的具体案例来讲授Python编程的基本语法规则,并通过Python语言来介绍数据科学的基本内容以及数据分析方法的基本思想。内容分为两部分,第一部分介绍Python编程的基本概念,包括常用表达式、数据类型、表格处理、数据可视化等;第二部分结合Python语言介绍数据分析方法的基本思想,比如假设检验、
本书详细阐述了培养具有数据素养的技术技能型人才所需要的大数据相关基础知识。本书在确定知识布局时,秉持的一个基本原则是,紧紧围绕大数据通识教育核心理念,培养学生的数据意识、数据思维、数据安全和数据分析能力。全书共7章,内容包括大数据概述,大数据思维,数据库基础知识,大数据分析技术及相关应用,数据可视化概论,大数据安全,大
本书系统、全面地介绍大数据技术的基础知识。全书共13章,首先介绍大数据行业与技术趋势;然后介绍大数据生态圈的各项技术,包括分布式文件系统、Hive分布式数据仓库、HBase技术原理、MapReduce和YARN技术原理、Spark基于内存的分布式计算、Flink流批一体分布式实时处理引擎、数据采集与数据装载工具、Kaf
《大数据百科术语辞典》汉外对照系列丛书是全球首套系统研究大数据术语的多语种智能化专业辞典。本丛书对大数据知识体系进行了全面梳理,提出了九个方面的术语架构,形成了统一规范、符合国际通用规则的多语种学术话语体系;丛书系统性提供汉语与其他二十个语种的术语规范表述,以中外文对照的形式展示;丛书开创性融入知识图谱、有声点读、平台
Hadoop是当前热门的大数据处理与分析平台。《Hadoop大数据开发基础项目化教程》将大数据平台相关内容划分为8个项目,分别是大数据时代、Hadoop基础环境、Hadoop环境搭建、分布式存储HDFS、MapReduce分布式编程、Hadoop数据仓库Hive、Hadoop数据库HBas、协调系统Zookeeper,
本书介绍数据分析的统计基础、种类划分,并列举大量实例以说明数据分析方法和算法。内容主要分为4部分,第1部分为第1章,介绍一些概念,简单描述数据分析方法和一些实例;第2部分包括第2~7章,介绍描述性分析和数据预处理的主要方法,包括描述统计、多元描述分析、聚类以及频繁模式挖掘等;第3部分包括第8~12章,介绍预测性分析的主
面对日渐复杂的大数据,科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。本书立足于大数据研究的现状,基于实际医疗案例,介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基
大数据技术凝集了多学科的研究成果,是一门多学科的交叉融合技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。“数据科学与大数据技术导论”是数据科学与大数据技术专业的第一门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。本书主要介绍数据科学与