随着计算机技术的发展,数据处理和分析技术也在不断进步。随着社会变化的速度加快,对数据的实时性和即时性要求也在提高。 本书围绕数据仓库的建设和应用展开,内容涵盖了数据仓库的基本概念、操作数据层、数据集市、指标设计及展现、设计数据仓库、数据仓库与大数据技术、数据仓库与数据中台、数据治理等。 本书适用于大数据专业的相关读者,无论是对于刚刚接触数据仓库的初学者,还是对于已经在数据仓库领域有一定经验的专业人士,本书都将提供有价值的参考和指导,帮助读者更好地理解和应用数据仓库技术,从而为企业的发展和决策提供更加可靠的支持。
本书遵循教指委相关指导文件和高等院校学生学习规律编写而成。践行四新理念,融入思政元素,注重理论与实践相结合。
每项技术的出现都不是偶然的,数据仓库技术也同样如此。随着企业大量使用计算机,操作系统产生了大量的数据。数据仓库是集成、存储和分析大量数据的系统,它可以帮助组织更好地理解和应对社会变化。通过数据仓库,人们可以收集和分析各种数据,包括经济、环境、人口和健康等方面的数据,从而更好地了解社会趋势、问题和需求。基于这些数据,决策者可以制定更有效的政策和方案,从而推动社会的进步和发展。因此,数据仓库在促进社会进步方面发挥着重要作用。 随着社会进步,数据的来源和种类变得更加多样化。数据仓库需要不断适应和整合不同渠道和来源的数据,包括传感器、社交媒体和移动应用等,以便全面地反映社会的动态变化。随着技术的发展,数据处理和分析技术也在不断进步,如人工智能、机器学习、大数据分析等。随着社会变化速度的加快,对数据的实时性和即时性要求也在提高。数据仓库需要能够快速地处理和分析数据,及时提供决策支持和信息反馈。随着数据的增加和大量使用,隐私和安全性问题也变得更加突出。数据仓库需要不断加强数据的保护和安全措施,确保数据的合法使用和隐私保护。 随着企业规模的不断扩大和业务范围的日益复杂化,企业内部涉及的数据量也呈现出爆炸式增长的趋势。如何高效地管理、分析和利用这些海量数据成为企业发展中的重要挑战。数据仓库作为一种专门用于集成、存储和管理企业数据的技术解决方案,为企业提供了解决这一挑战的有效手段。通过将来自不同业务系统的数据整合到一个统一的数据仓库中,并通过各种数据分析工具进行分析和挖掘,企业可以更好地理解自身的业务状况,发现潜在的商机和问题,并支持决策者做出更为明智的决策。 本书各章节阐述和讨论数据仓库的以下几个方面:第1章数据仓库的基本概念。介绍数据仓库中各种类型的数据以及大数据的相关概念。然后从数据仓库的演变和体系结构这两方面详细介绍数据仓库的基本问题。 第2章操作数据层。首先介绍ODS的定义以及数据仓库的关系等,然后介绍ODS的两个集成,最后介绍实际运用ODS的实时数据仓库。 第3章数据集市。从数据集市的概念展开,详细介绍数据集市的各种类型,并重点介绍有关数据集市设计的方法和技术。 第4章指标设计及展现。主要关注数据指标的设计和展现,提供全面的数据指标设计和展现内容,从指标体系的搭建到最终用户的商业智能需求,再到探索性数据仓库和可视化技术的应用。 第5章设计数据仓库。重点介绍如何设计数据仓库,首先是对数据仓库主题的确定,然后进行操作型数据的设计以及数据仓库的粒度与分区设计,最后介绍数据仓库的数据模型设计以及数据仓库层的设计。此外还介绍设计数据仓库中所用到的数据管理技术。 第6章数据仓库与大数据技术。介绍数据仓库、流式计算、Hadoop和NoSQL技术4个主题。每个主题深入讨论各自的概念、应用场景和关键技术。 第7章数据仓库与数据中台。从数据中台的概念展开,详细介绍数据中台与数据仓库的联动关系,并重点讲述数据中台的架构与设计方法。 第8章数据治理。主要介绍数据治理的基本内容、DGI数据治理框架与DAMA数据管理框架两种主流数据治理框架、数据治理工具,以及国内外数据治理标准,最后展望数据治理的未来,包括智能数据分析、区块链技术应用以及数据治理与云计算结合应用。 总的来说,随着社会进步,数据仓库需要不断适应和应对社会变化带来的新挑战和产生的需求,以更好地发挥其作用。 编 者目 录
高等院校教师
前言第1章 数据仓库的基本概念 1学习目标 11.1 数据相关概念 11.1.1 数据与信息 11.1.2 数据的结构化与非结构化 21.1.3 文本数据 41.1.4 日志数据 41.1.5 大数据 51.1.6 小数据 61.1.7 活数据 61.2 决策支持系统的演化 71.2.1 决策支持系统的基本内容 71.2.2 数据仓库环境 91.3 数据仓库的体系结构简介 121.4 小结 14第2章 操作数据层 15学习目标 152.1 ODS 152.1.1 ODS的定义及分类 162.1.2 ODS数据的基本特征 162.1.3 ODS与数据仓库 162.1.4 ODS设计 172.2 ODS与Web集成 182.2.1 Web数据 192.2.2 粒度管理器 192.2.3 基于ODS的Web集成 202.2.4 ODS与Web日志数据集成 212.3 实时数据仓库 222.4 小结 23第3章 数据集市 25学习目标 253.1 数据集市概述 253.1.1 数据集市的分类 263.1.2 数据结构 283.1.3 数据集市与数据仓库的联系与区别 303.2 维度建模 313.2.1 事实表与维表 313.2.2 规划和设计标准 353.2.3 关系模型和多维模型 383.2.4 维表 423.2.5 事实表 453.2.6 维度建模设计过程 483.2.7 维度建模的原则与常见疏忽 503.3 小结 50第4章 指标设计及展现 52学习目标 524.1 指标体系的概念及分类 524.2 搭建指标体系的方法 534.3 指标体系元数据管理 564.4 最终用户的需求 594.5 商业智能 604.6 探索性数据仓库 614.7 可视化技术 624.8 小结 64第5章 设计数据仓库 65学习目标 655.1 数据仓库的主题 655.1.1 主题 655.1.2 主题的使用 665.1.3 主题域 665.1.4 确定主题的内容 675.2 操作型数据的设计 675.3 数据仓库的粒度与分区设计 685.3.1 粒度的设计 685.3.2 分区的设计 715.4 数据仓库的数据模型设计 735.5 数据仓库层的设计 745.6 数据管理技术 755.7 小结 79第6章 数据仓库与大数据技术 80学习目标 806.1 数据仓库的体系结构 806.1.1 传统数据仓库 806.1.2 分布式数据仓库 836.2 流式计算 946.2.1 流式计算与批量计算 956.2.2 流式计算框架与平台 956.2.3 流式计算主要应用场景 966.2.4 流式计算的价值 966.3 Hadoop 976.4 NoSQL技术 986.4.1 CAP理论 1006.4.2 BASE原则 1006.4.3 常见的NoSQL数据库 1006.5 小结 103第7章 数据仓库与数据中台 105学习目标 1057.1 数据中台的基本概念 1057.1.1 数据中台的特征 1067.1.2 数据中台与数据仓库 1077.2 数据中台建设及架构 1087.2.1 持续让数据用起来的价值框架 1087.2.2 数据中台建设方法论 1097.2.3 数据中台架构 1147.2.4 数据中台的价值 1157.3 微服务架构 1167.4 小结 117第8章 数据治理 119学习目标 1198.1 数据治理的背景 1198.2 数据治理的概念与目标 1208.3 数据治理的框架 1208.3.1 DGI数据治理框架 1218.3.2 DAMA数据管理框架 1238.4 数据治理的标准 1258.4.1 国际标准 1268.4.2 国内标准 1268.5 数据治理的工具 1298.6 数据治理的未来展望 1308.7 小结 133参考文献 134