区块链是计算机科学领域近年来热门的研究方向,数字中国是数字时代推进中国式现代化的重要引擎,数据共享则是数字中国建设的重要支撑。本书既有区块链与数据共享方面的理论介绍,也有实验方法、应用系统架构与实践方面的经验分享,在强调理论的同时,注重实践与应用。第1~2章为概述,主要介绍数据和数据共享的相关背景;第3~4章侧重基础理论,分别介绍与数据共享相关的区块链和隐私保护技术;第5章侧重工程实现,剖析数据共享平台SOLAR的架构设计与关键代码编写;第6~9章侧重行业应用实践,分别介绍通用意义的数据交易平台、医疗数据共享,并拓展到知识与数据共建共享,分析其架构设计以及区块链和隐私计算技术的应用;第10章对未来的应用进行展望。 本书可作为高等院校计算机、区块链和其他信息学科相关专业的教材,也可供对区块链、数据共享和数字经济感兴趣的研究人员和工程技术人员阅读参考。
前 言
2020年年初,写下本书扉页的时候,我们正处在一个特殊的历史背景下——新冠疫情在全球开始流行;而2023年年初,本书写作与编辑工作基本结束的时候,我们已经基本摆脱了新冠疫情的束缚。令人欣慰的是,我国GDP总量在2020年首次突破100万亿元,达到全年2.2%的经济增速。光鲜的GDP数据背后依靠的是数字经济(尤其在远程办公和数字抗疫方面)的高速发展。
大数据、区块链、人工智能、云计算、物联网等新一代信息技术正对人类社会的发展起着越来越重要的作用。从网络热搜也能看出这些新兴技术的关注度:我们在谷歌上搜索“大数据”,大概可以得到8.62亿条结果;搜索“区块链”时,大概可以得到652万条结果;搜索“数据共享”时,大概可以得到333万条结果。
可以说,数据承载和记录了人类社会从萌芽到信息爆炸时代的文明印记,从结绳记事时期到当前的大数据时代,都离不开数据的身影。数据在维基百科中被描述为“关于一个或多个人或物体的一组定性或定量变量”,人们在提到包罗万象的数据时,为了充分体现其5V特性,即Volume(容量)、Velocity(速率)、Variety(多样性)、Value(价值)、Veracity(真实性),往往会默认为“大数据”(Big Data)。
而区块链具备一个传奇故事的所有要素:神龙见首不见尾的作者,开创性的应用,一石激起千层浪的社会反响。我们不知道,当神秘的作者中本聪敲下第一行区块链代码时,他是否能够想象自己的代码创造出了新奇的、充满活力的新时代。现在提到区块链,人们已逐步从虚拟货币转化为关注技术本身。未来,区块链缔造的价值将与数据共生。2023年2月份,中共中央、国务院印发的《数字中国建设整体布局规划》指出,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。要强化数字中国关键能力,一是构筑自立自强的数字技术创新体系,二是筑牢可信可控的数字安全屏障。区块链与数据共享技术,都是强化数字中国关键能力的有力支撑。
市面上区块链相关书籍已经很多,有科普性质的,也有开发性质的。本书的作者团队有幸负责或参与研发了几个与区块链和隐私计算相关的数据共享系统,也在联邦学习、知识图谱等领域进行了深入研究,这为本书的创作提供了很好的素材和知识、经验方面的积累。与其他区块链书籍相比,本书既有区块链与数据共享方面的理论介绍,也有实验方法、应用系统架构和实践方面的经验分享,在强调理论的同时注重实践和应用。
本书的第1、2章为概述,主要介绍数据和数据共享的相关背景;第3、4章侧重基础理论,分别介绍与数据共享相关的区块链和隐私保护技术;第5章侧重工程实现,剖析了数据共享平台SOLAR的架构设计与关键代码;第6~9章侧重行业应用实践,分别介绍通用意义的数据交易平台、医疗数据共享,并拓展到知识与数据共建共享,分析其架构设计以及区块链和隐私计算技术的应用;第10章对未来的应用进行展望。
本书在撰写过程中,除了署名的闾海荣、钟军、郑灵、李艳,参与编写人员还包括周容辰、许瑞坤、石顺中、沈运恒、陶焜等,也得到了非常多师长、同事和朋友的帮助。感谢清华大学数基生命创新群体首席科学家张学工教授,给我宽松的研究环境、学术指导,并在多个医工交叉方向国家重点研发计划项目中应用了我们的研究成果,也感谢清华大学江瑞教授在学术研究方面持续的帮助和支持;感谢深时数字地球国际大科学计划的首席科学家王成善院士和周成虎院士的指导,以及孙旭东、诸云强、杜震洪、罗斌等博士的支持,本书在知识与数据共建共享章节中参考了团队的部分设计成果;感谢翼方健数的罗震博士、霍尼科的唐建锋博士和福建省大数据集团的徐晓清女士,授权我引用其设计案例;感谢福州数据技术研究院的陈阳红、李艺晖等,以及清华大学的研究生王天亨、王丰等,协助我进行了大量校稿和图片设计工作;感谢福州数据技术研究院的服务团队,给我提供了良好的写作环境;感谢本书的编辑章海涛先生,在我一再拖稿的情况下,对我保持了足够的耐心,并给予了鼓励;最后,由衷地感谢我的父母,以及我的妻子和女儿,他们对我毫无保留的支持,让我得以从工业界回到学术界,做自己喜欢的工作。
本书的撰写得到了国家自然科学基金会“原创探索计划”项目NSFC42050101、国家重点研发计划“生物与信息融合”项目2022YFF1202403、国家自然科学基金会“生物信息学创新群体”项目NSFC61721003,以及福建省引才“百人计划”项目的支持,在此一并表示感谢。
需要说明的是,本书是一本面向工程应用实践教学的教科书或参考读物,书中对区块链技术和隐私保护技术的核心理论进行了介绍,对技术细节并未大篇幅展开介绍,需要对这两部分深入了解的同学,可以阅读相关专业书籍或相关论文。此外,本书写作过程中参详了大量的团队和项目组内部沟通交流材料,我们进行了溯源以追踪到原始材料的出处,尽可能详细罗列了参考文献并标注了引用,但仍有可能有遗漏或错误之处,欢迎各位读者提出建议、反馈和指正。
作 者
2023年3月
目录
第1章引论1
1.1数据的前世今生1
1.1.1朴素的记录时代1
1.1.2数字经济时代2
1.1.3数字孪生时代3
1.2共享是怎么发展的4
1.2.1共享——古老的美德4
1.2.2数据孤岛7
1.2.3共享经济8
1.3当数据成为生产要素10
1.4数据遇上共享,我们能做什么12
本章小结13
习题113
参考文献13
第2章数据共享的现状15
2.1政策因素15
2.1.1支持政策15
2.1.2约束政策17
2.2困难和挑战18
2.2.1数据权问题18
2.2.2隐私保护问题21
2.2.3价值流动闭环问题23
本章小结26
习题227
参考文献27
第3章区块链与数据共享技术29
3.1区块链背景介绍29
3.1.1区块链的概念29
3.1.2区块链的发展历程32
3.1.3区块链抽象模型34
3.1.4区块链分类39
3.2区块链的技术架构43
3.2.1数据层43
3.2.2网络层48
3.2.3共识层50
3.2.4激励层54
3.2.5合约层55
3.2.6应用层56
3.3区块链技术的拓展57
3.3.1应用拓展57
3.3.2性能拓展58
3.3.3跨链兼容62
3.4区块链的经典框架63
3.4.1以太坊63
3.4.2HyperledgerFabric66
3.4.3EOS73
3.4.4IOTA74
3.4.5Filecoin75
3.4.6BAFFLE78
3.5基于区块链的数据共享技术78
3.5.1区块链自身难适应数据共享场景79
3.5.2区块链实现数据共享安全性优化79
本章小结80
习题380
参考文献81
第4章隐私保护与数据共享技术83
4.1隐私保护简介83
4.1.1隐私概念和数据匿名84
4.1.2隐私衡量方法86
4.1.3隐私保护的关键技术88
4.1.4数据发布隐私保护89
4.1.5数据存储隐私保护90
4.1.6数据分析隐私保护93
4.1.7比特币和区块链的隐私保护94
4.2零知识证明100
4.2.1零知识证明的基本原理100
4.2.2交互式零知识证明102
4.2.3非交互式零知识证明103
4.3同态计算105
4.3.1同态加密的定义、安全性和简单实例105
4.3.2同态加密的主要类型106
4.4安全多方计算108
4.4.1安全多方计算的基本概念和数学模型108
4.4.2安全多方计算的应用场景与案例介绍110
4.4.3混淆电路110
4.4.4不经意传输112
4.4.5秘密共享113
4.5联邦学习114
4.5.1联邦学习概述115
4.5.2联邦学习的扩展和性能提升116
4.5.3联邦学习的应用119
4.5.4联邦学习中的隐私保护解决方案119
4.5.5基于差分隐私的隐私保护120
4.5.6基于安全多方计算的隐私保护121
4.6隐私保护的其他技术122
4.6.1基于属性加密122
4.6.2可搜索加密124
4.6.3代理重加密125
本章小结128
习题4129
参考文献129
第5章数据共享系统解析与实现133
5.1数据共享简介133
5.1.1数据及数据产品定义133
5.1.2传统数据共享模式134
5.1.3数据共享趋势与问题135
5.2可信数据共享135
5.2.1可信数据共享模式136
5.2.2数据共享技术实现方案136
5.3SOLAR数据共享平台设计139
5.3.1SOLAR平台的功能140
5.3.2SOLAR平台的架构141
5.3.3SOLAR平台的技术选型143
5.3.4SOLAR平台的远程调用145
5.3.5中心端功能设计146
5.3.6边缘端功能设计149
5.4数据共享应用系统开发151
5.4.1区块链智能管理模块152
5.4.2联邦学习模块159
5.4.3边缘计算模块165
5.4.4业务逻辑管理模块169
本章小结177
习题5177
参考文献177
第6章数据交易平台178
6.1交易平台发展现状178
6.1.1国际数据交易平台179
6.1.2政府主导的国内数据交易平台180
6.1.3企业主导的国内数据交易平台185
6.2数据交易平台的挑战188
6.2.1数据产品交易特点188
6.2.2交易平台设计的挑战189
6.3数据分类分级方法192
6.3.1分类原则192
6.3.2分类方法193
6.3.3分级原则194
6.3.4分级方法194
6.3.5数据资源共享和开放要求196
6.3.6动态分类分级197
6.3.7数据资产交易产品类型197
6.4数据定价策略及实例198
6.4.1数据定价策略198
6.4.2数据定价模型198
6.4.3数据价值指数200
6.4.4数据定价方法优化201
6.4.5数据定价实践案例202
6.5交易平台架构设计203
6.5.1设计思路203
6.5.2模式变革205
6.5.3功能架构207
6.5.4业务架构209
6.5.5技术架构210
6.5.6数据架构211
6.5.7安全架构212
6.6挑战的应对措施213
6.6.1确权及合规性挑战应对:基于数据公证的合规认证体系213
6.6.2安全性挑战应对:三流分离的业务模式213
6.6.3价值不确定性挑战应对:数据试验融合215
6.6.4安全监管挑战应对:子母订单审核机制216
6.6.5价值评估挑战应对:多维度辅助定价216
6.6.6隐私保护挑战应对:隐私计算与统一隐私计算217
6.6.7安全监管挑战应对:全流程链上存证监管218
本章小结219
习题6219
参考文献219
第7章医疗数据共享221
7.1医疗数据的特点与相关概念221
7.1.1医疗数据221
7.1.2通用数据模型223
7.1.3标准化术语集225
7.1.4队列227
7.1.5从数据到证据230
7.1.6证据与数据质量231
7.2医疗数据共享的现状及挑战232
7.2.1医院内部数据共享现状232
7.2.2多中心数据协同现状234
7.2.3医疗数据共享协作挑战234
7.3医疗数据共享平台的架构设计235
7.3.1业务架构235
7.3.2业务流程分析235
7.3.3数据流设计236
7.3.4智能化设计236
7.4医疗数据共享平台的技术支撑239
7.4.1动态数据架构应用239
7.4.2隐私安全计算应用240
7.4.3区块链技术应用241
7.4.4多中心灵活部署241
7.4.5全流程数据管理技术242
7.4.6激励机制应用243
本章小结243
习题7244
参考文献244
第8章知识与数据共建共享245
8.1科研范式变革245
8.2知识图谱联邦构建算法248
8.2.1知识图谱248
8.2.2联邦学习补充介绍249
8.2.3联邦联合抽取模型251
8.3知识共建共享平台258
8.3.1知识共建共享平台总体设计258
8.3.2知识图谱共建共享机制263
8.3.3区块链及隐私计算技术应用265
8.4数据共建共享系统265
本章小结267
习题8267
参考文献268
第9章其他行业应用案例269
9.1供应链应用269
9.1.1场景和需求269
9.1.2区块链多方协调270
9.2版权溯源与原创性保护应用272
9.2.1场景和需求272
9.2.2区块链迅捷存证273
9.3房屋租赁应用277
9.4云存储应用279
9.5区块链分布式共享应用279
本章小结280
习题9280
参考文献280
第10章展望282