大数据服务已经深入人们工作与生活的各个角落,大数据安全成为各行各业日益关心的一个问题。本书从大数据服务的系统架构、算法、协议、应用等多个角度,深入浅出地为读者介绍大数据安全与隐私保护。本书内容包括:大数据安全的概念、密码学基础知识、数据传输安全、身份管理与数据访问控制、大数据处理与存储及其安全隐私、保护隐私的可信计算、大数据共享及其安全隐私、大数据算法及其安全、大数据采集及其安全隐私、企业数据安全、数据流转安全。本书适合高等院校网络空间安全、信息安全专业用作专业课教材,也适合其他专业用作选修课教材,亦适合对大数据安全感兴趣的读者阅读。
2024年北京高校优质本科课程、2024年北京邮电大学课程思政示范课程、北京邮电大学校级“十四五”规划教材、北京高校优质本科教材课件奖。内容包括安全多方计算、同态加密、零知识证明,Noise协议框架、ACME协议、FIDO协议、PAKE协议、本地后差分隐私等新技术。根据不同的学生情况与培养方案的学时要求,可以采取不同的授课方案。配套提供电子课件、习题答案、教学大纲、试卷、拓展阅读材料。
数字经济时代,数据已成为核心的生产要素,驱动着各行业的创新与发展。数据作为新型生产力的关键资源,其获取、处理、存储和应用对企业的竞争力、国家的经济发展,以及全球的科技进步都具有重要影响。然而,随着数据的广泛使用,数据安全与隐私保护问题日益凸显,成为各国政府、企业和个人必须应对的重大挑战。自2018年欧盟《通用数据保护条例》(GDPR)实施以来,数据安全与隐私保护技术在全球范围内引起了广泛的关注和重视。《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》颁布实施之后,国内越来越多的学校开设大数据安全与隐私保护类课程。我们从2017年开始编写、2019年出版的教材《大数据安全与隐私保护》是国内首批大数据安全与隐私保护方向的教材。该教材出版后,受到广大师生的欢迎,教材适用范围广,满足了不同层次高校、不同专业的课程建设与教学需求,尤其是满足了多个国家特设专业和国家控制布点专业的课程建设需求。近些年,数据安全与隐私保护领域发展日新月异,诸多曾被长期忽视的理论与技术重新受到广泛关注,如安全多方计算、同态加密、零知识证明等;同时,Noise协议框架、ACME协议、FIDO协议、PAKE协议、本地后差分隐私等新技术也开始得到广泛应用。这些内容是目前大多数教材尚未涵盖的,也是我们在过去的教学实践中逐步探索完善的教学内容,此次修订已将其全面纳入本教材。本教材在2019年版《大数据安全与隐私保护》基础上,深度融合6年来的教学实践经验,对大数据安全与隐私保护知识体系进行了系统性补充与更新。更新后的版本不仅教学内容体系化程度更高、知识覆盖更为全面,还能满足更广泛、更多样化的教学需求。此外,为进一步提升教学便利性,我们新增了习题、课后阅读材料、教学课件、实验课素材等配套资源,力求为授课教师提供更完善的教学支持。教材使用建议授课建议:根据不同的学生情况与培养方案的学时要求,可以采取不同的授课方案。方案一:32学时。对于星号(*)章节,可以略去。方案二:48~64学时。对于学生基础好或者学时充足的情况,可以采用本书完整的内容。致谢感谢韩冰、张诗含、曾佳淇等同学在本书编写过程中的辛苦付出,也再次感谢在过往教材中做出贡献的冯庆玲、敖迪、姜宁等同学。本书的编写工作得到了北京市自然科学基金项目(M21037)、北京邮电大学校级“十四五”规划教材项目、北京高校优质本科教材课件(2023年重点项目)的资助和支持,在此表示感谢。我们教学团队在北京邮电大学开设的相关课程也被评为2024年北京高校优质本科课程、2024年北京邮电大学课程思政示范课程,课程的实验案例被评为2023年北京邮电大学优秀实验案例,感谢北京邮电大学对我们教材编写工作的支持,感谢北京市对我们工作成果的认可。本书可作为高等院校网络空间安全专业本科生的专业课教材,也可作为其他专业学生的选修课教材,亦可作为对大数据安全感兴趣的读者的参考书。由于编者水平有限,加之时间仓促,书中不妥之处在所难免,恳请读者批评指正。编者建立了读者交流群(QQ群号:330714329),方便与读者沟通,并为读者提供后续的服务与支持。本书和所有其他工作一样,最重要也是最根本的使命就是服务于大众。如果本书能够对广大师生的教与学提供一些切实的帮助,编者就十分欣慰,也就不负这一年多来无数个周末和夜晚的辛苦。希望本书能够为“大数据安全”的课程建设尽一份绵薄之力。
石瑞生,工学博士(北京邮电大学网络与交换技术国家重点实验室),北京邮电大学网络空间安全学院副教授,美国宾州州立大学访问学者(2018年),CCF高级会员。主持参与科研项目20余项,在IEEE S&P、NDSS、WWW、DAC、Big Data、SCC、FGCS、Cybersecurity、密码学报、信息安全学报等主流学术会议与期刊发表学术论文40余篇,申请国家发明专利30余项(其中16项已经授权)。主编大数据安全方向的国内第一本本科教材《大数据安全与隐私保护》(2019年5月出版),该教材获得2023年“北京高校优质本科教材课件(重点)”奖,主讲课程获得2024年“北京高校优质本科课程”奖。
前言第1章 大数据安全的概念 11.1 大数据的概念和内涵 11.2 大数据应用 21.2.1 从一个小故事讲起 21.2.2 谷歌流感趋势 21.2.3 华尔街利用微博数据预测股票 31.2.4 利用大数据预测美国大选 41.3 理解大数据安全 51.4 大数据隐私与安全 61.4.1 隐私的定义 61.4.2 安全、隐私与技术进步的关系 71.5 相关法律法规 81.5.1 隐私与法律 81.5.2 美国隐私权大事件 91.5.3 欧盟隐私权大事件 111.5.4 数字贸易协议 131.5.5 中国关于数据安全的法律法规建设 151.6 数字社会与国家安全 171.7 本章小结 181.8 习题 191.9 拓展阅读 19第2章 密码学基础知识 202.1 引言 202.2 密码算法 202.2.1 密码学的历史 202.2.2 基于密钥的加密算法 202.2.3 香农的密码设计思想 212.2.4 流密码 222.2.5 分组密码算法 242.2.6 公钥密码体制 252.2.7 哈希函数 272.2.8 密码算法的应用 292.2.9 消息的完整性认证加密 312.2.10 分组密码的工作模式 312.2.11 密码算法小结 34*2.3 攻击模型与安全性分析 342.3.1 攻击模型 342.3.2 安全目标 362.3.3 安全概念 372.3.4 语义安全的公钥密码方案 372.3.5 语义安全的对称加密方案 402.3.6 案例分析:QQ浏览器 442.4 后量子密码 442.4.1 后量子密码简介 442.4.2 常见的后量子密码体制 452.4.3 后量子密码标准化 462.5 本章小结 472.6 习题 472.7 上机实验 472.8 拓展阅读 47第3章 数据传输安全 483.1 引言 483.2 TLS协议 483.2.1 协议架构 493.2.2 报文结构 503.2.3 协议流程 503.2.4 握手协议的设计 533.2.5 安全信道的建立 573.2.6 TLS 1.3简介 593.2.7 HSTS 613.3 DTLS 633.4 数字证书安全 633.4.1 数字证书的工作原理与分类 633.4.2 免费证书(LE证书) 663.4.3 自动化证书管理环境协议 663.4.4 LE证书的自动化配置工具 673.4.5 伪造证书攻击 683.4.6 安全机制一:证书透明化 683.4.7 安全机制二:公钥钉扎 693.4.8 实际网络的复杂性:内容分发网络与中间盒子 70*3.5 信息安全传输协议的设计方法(Noise协议框架) 753.6 常用的信息传输安全协议简介 763.6.1 SSH协议 773.6.2 IPsec协议 773.6.3 QUIC协议 783.7 新场景与新技术:端到端加密与群组加密 793.8 本章小结 813.9 习题 813.10 拓展阅读 82第4章 身份管理与数据访问控制 844.1 引言 844.2 身份认证的四个基本原语及其挑战 844.2.1 基于口令的身份认证 854.2.2 基于令牌的身份认证 874.2.3 基于生物特征的身份认证 894.2.4 基于公钥密码学的身份认证 894.2.5 挑战一:口令的存储管理问题 904.2.6 挑战二:令牌安全问题 924.2.7 挑战三:生物特征失窃与仿冒问题 924.2.8 挑战四:私钥安全管理与使用方便之间的矛盾 934.3 身份认证的典型技术方案 944.3.1 基于硬件安全的数字证书 944.3.2 多因子认证 954.3.3 FIDO协议 964.3.4 新思想:持续认证与动态访问控制 1034.4 单点登录与开放访问控制 1054.4.1 Needham-Schroeder协议 1054.4.2 Kerberos协议 1074.4.3 OAuth协议 1084.4.4 OpenID Connect协议 1134.4.5 移动端单点登录系统面临的问题 1154.5 Cookie 1154.5.1 Cookie的工作原理和安全属性 1164.5.2 Cookie与身份认证 1174.5.3 Cookie劫持攻击 117*4.6 aPAKE协议 1194.6.1 SRP协议 1194.6.2 OPAQUE协议 1214.7 本章小结 1234.8 习题 1244.9 拓展阅读 125第5章 大数据处理与存储及其安全隐私 1275.1 引言 1275.2 大数据的计算与存储 1275.2.1 云计算的定义与特征 1275.2.2 云计算的三种主要服务模式 1275.2.3 虚拟化技术:虚拟机与容器 1285.2.4 虚拟化技术的安全问题 1345.2.5 谷歌的云计算技术 1415.2.6 NoSQL:CAP定理、BASE模型和Dynamo 1465.2.7 开源大数据处理系统及其安全隐私机制 1515.2.8 私有信息检索 1535.3 大数据存储的安全隐私 1545.3.1 云存储的应用及其安全问题 1545.3.2 云存储中的数据完整性机制:POR技术原理 1565.3.3 隐私保护机制:加密数据去重技术 1575.3.4 拥有权证明 158*5.4 去中心化存储的安全隐私问题 1595.4.1 IPFS 1595.4.2 区块链 1605.5 本章小结 1605.6 习题 1615.7 拓展阅读 162第6章 保护隐私的可信计算 1636.1 引言 1636.2 同态加密 1636.2.1 同态加密简介 1636.2.2 Paillier加法同态加密算法 164*6.2.3 全同态加密 1676.2.4 实用性解决方案:CryptDB 1706.3 安全多方计算 1726.3.1 什么是安全多方计算 1726.3.2 起源(百万富翁问题) 1736.3.3 安全多方计算模型 1746.3.4 基础安全多方计算协议:混淆电路 1756.3.5 基础安全多方计算协议:不经意传输协议 1776.3.6 基础安全多方计算协议:秘密共享 179*6.3.7 典型通用协议:BMR协议 181*6.3.8 典型通用协议:GMW协议 183*6.3.9 典型通用协议:BGW协议 184*6.3.10 专用协议:隐私保护集合求交 1866.3.11 应用与挑战 188*6.4 可信执行环境(机密计算) 1906.4.1 可信执行环境简介 1906.4.2 华为鲲鹏CPU和TEE技术 1976.4.3 SGX 2106.4.4 可信执行环境小结 217*6.5 零知识证明 2196.5.1 零知识证明简介 2196.5.2 zk-SNARK 2206.5.3 Zcash:zk-SNARK的区块链应用 2216.5.4 zk-SNARK的实现:libsnark 2246.6 本章小结 2246.7 习题 2256.8 上机实验 2256.9 拓展阅读 226第7章 大数据共享及其安全隐私 2277.1 引言 2277.2 隐私 2277.2.1 隐私的定义 2277.2.2 隐私的分类 2287.2.3 隐私的度量与量化表示 2287.2.4 完美隐私 2287.2.5 威胁分析 2287.3 案例分析:用户隐私泄露事件 2297.3.1 美国在线数据发布 2297.3.2 “网飞奖”数据研究 2307.3.3 社交网络上隐私泄露事件 2317.4 数据匿名化技术 2317.4.1 无处不在的匿名化 2317.4.2 匿名技术:发布-遗忘模型 2327.5 匿名化技术与反匿名化技术的博弈 2357.5.1 k重匿名隐私保护模型 2357.5.2 l-多样性隐私保护模型 2387.5.3 t-相近性隐私保护模型 2397.6 差分隐私技术 2397.6.1 差分隐私模型简介 2397.6.2 工作原理 2407.6.3 拉普拉斯机制 2417.6.4 高斯机制 2437.6.5 指数机制 2457.6.6 应用与挑战 246*7.7 本地化差分隐私 2477.7.1 中心化差分隐私与本地化差分隐私 2477.7.2 随机响应机制 2487.7.3 一元编码机制 2517.7.4 本地化差分隐私小结 253*7.8 差分隐私应用 2537.8.1 差分隐私数据采集 2547.8.2 差分隐私机器学习 2557.9 本章小结 2577.10 习题 2577.11 拓展阅读 258第8章 大数据算法及其安全 2598.1 引言 2598.2 大数据算法基础 2598.2.1 数学模型 2598.2.2 搜索引擎算法的基本原理 2608.2.3 电子商务中协同过滤推荐算法 2628.2.4 大数据时代的新需求 2638.2.5 机器学习算法 2648.2.6 众包 2678.3 对大数据算法的攻击 2688.3.1 案例分析:通过伪造共同访问对推荐系统进行攻击 2688.3.2 案例分析:搜索引擎优化 2718.3.3 对抗样本攻击 2728.3.4 数据投毒攻击 2748.3.5 后门攻击 2778.3.6 机器学习隐私攻击 283*8.4 联邦学习 2878.4.1 联邦学习概述 2878.4.2 联邦学习的定义 2878.4.3 联邦学习的分类 2898.4.4 联邦学习的激励机制 2908.4.5 联邦学习的应用前景 291*8.5 保护隐私的机器学习 2928.5.1 机器学习中的安全与隐私问题 2938.5.2 机器学习中常见的隐私保护方法 2948.5.3 保护隐私的机器学习小结 3008.6 本章小结 3008.7 习题 3018.8 阅读材料 3028.8.1 ARMv8架构的体系结构 3028.8.2 ARMv8架构的优势 3038.8.3 国产华为昇腾人工智能处理器的介绍 3048.9 拓展阅读 305第9章 大数据采集及其安全隐私 3069.1 引言 3069.2 大数据采集与管理 3069.2.1 传统的数据采集技术 3079.2.2 大数据给数据采集带来新的挑战 3079.2.3 大数据采集技术 3089.2.4 数据采集平台软件 3089.2.5 数据的非法采集现象 3089.3 匿名通信 3109.3.1 基本概念 3109.3.2 匿名通信的基本框架 3109.3.3 技术方案 3119.4 浏览器的DNT标准 3129.4.1 DNT的历史 3129.4.2 DNT的困境 3139.4.3 技术方案 314*9.5 在线追踪技术 3149.5.1 在线广告生态系统 3149.5.2 基于HTTP Cookie的在线追踪技术 3169.5.3 Cookie 同步 3189.5.4 Evercookie 3209.5.5 浏览器指纹 3219.5.6 跨设备跟踪 3229.6 反跟踪技术 3239.7 本章小结 3259.8 习题 3269.9 拓展阅读 326第10章 企业数据安全 32710.1 引言 32710.2 数据分类分级 32710.2.1 定义 32710.2.2 意义 32910.2.3 方法 330*10.3 数据防泄露 33210.3.1 定义 33210.3.2 为什么需要数据防泄露 33210.3.3 检测技术 33210.3.4 控制与加密技术 33410.3.5 三种主流形态 33610.4 本章小结 33710.5 习题 337第11章 数据流转安全 33811.1 引言 33811.2 数字水印技术 33811.2.1 概述 33811.2.2 技术原理 34011.2.3 应用 34011.2.4 攻击手段 34111.3 区块链存证技术 34111.3.1 概述 34111.3.2 技术原理 34211.3.3 应用 342*11.4 数据访问控制(属性基加密) 34311.4.1 概述 34311.4.2 技术原理 34311.4.3 应用 34311.5 本章小结 344参考文献 345