档案数据管理与长期保存策略:基于数字中国战略的研究
定 价:69.8 元
本书主要从以下四个方面展开档案数据管理与长期存储的研究:第一,对存储介质耐久性进行详细分析,明确了哪些存储介质适合长期保存,为档案数据长期保存存储介质的选择提供了重要的参考依据。第二,从管理策略和技术策略两方面提出档案数据长期保存策略。本书提出了档案数据长期保存的框架,明确档案数据长期保存策略包括战略规划、管理策略和技术策略三方面,本书的研究重点放在管理策略和技术策略这两个方面。本书从数据管理、载体管理、环境管理三个部分提出了详细的档案数据长期保存管理策略;同时,通过对长期保存技术的研究,从备份策略、载体迁移策略、格式转换策略三个部分提出了档案数据长期保存技术策略。第三,结合上海市区两级综合档案馆档案数据保管现状,提出了电子档案备份中心建设方案。按照档案数据长期保存的总体框架,对电子档案备份中心的总体架构进行了设计,并从库房建设、装具建设、管理系统建设等方面提出了详细的设计方案。同时,本书以长期保存策略为基础,基于实际情况,从入库管理、日常管理、出库管理三个环节提出了一套可落地、可操作的长期保存策略,为下一步电子档案备份中心的建设和运行提供了依据。第四,基于现有的存储介质和长期保存技术,制订了档案数据长期保存方案,为后续开展档案数据长期保存工作提供可借鉴的经验。
随着数字中国建设逐步从战略规划走向落地实施,如何与数字中国战略对接,进一步推动档案数字化转型,是档案学界需要集体思考的一个问题。本书是在国家档案局立项科研项目数字档案储存介质耐久性及长期保存策略研究研究成果的基础上深化调研扩充而成的。本书对中国第二历史档案馆、上海市及各区档案馆等40多个单位进行了调研,通过广泛听取有关部门基层档案工作者的意见,运用文献查询、比较分析等方法,对当下我国档案存储的方法、介质等进行了深入研究,提出了档案数据管理与长期保存策略和方法,以及切实可行的电子档案备份中心建设方案,可供所有数字资源长期安全保存的研究机构和实际应用机构参考。
序我国正在全面推进数字中国战略,人工智能大数据将引起新的科技产业革命,档案信息资源是最大的、最有效的大数据,基于数字中国战略,如何探索创新档案数据管理与长期保存策略,成为摆在我们面前的一项紧迫的重大课题。在大数据环境下,档案工作的环境、对象、内容都发生了巨大变化。国家档案局《2022年度全国档案主管部门和档案馆基本情况摘要》的统计数据显示,全国各级国家综合档案馆现有馆藏档案数字化成果280690TB,馆藏电子档案23729TB,其中,数码照片2200TB,数字录音、数字录像10400TB。海量数据的涌现,给人类生产、生活带来巨大便利,同时也诱发了档案数据的安全问题。数据安全关乎国家安全。数据与国家经济运行、社会治理、公共服务、国防安全等方面密切相关,数据泄露、丢失和滥用将直接威胁国家安全和社会稳定。2021年1月1日,《中华人民共和国档案法》正式施行,明确要求各级人民政府应当将档案信息化纳入信息化发展规划,保障电子档案、传统载体档案数字化成果等档案数字资源的安全保存和有效利用。2021年9月1日,我国数据安全领域的基础性法律《中华人民共和国数据安全法》正式施行,明确将数据安全上升到国家安全范畴。2021年中共中央办公厅、国务院办公厅印发《十四五全国档案事业发展规划》,要求档案部门要贯彻总体国家安全观,加强电子档案长期保存技术和管理研究,保障档案数字资源安全,创建科学的可信存储与验证体系。2023年,国务院办公厅印发《政务服务电子文件归档和电子档案管理办法》,对规范电子文件管理,确保电子文件的真实、完整、可用和安全提出明确要求。安全保管保存好电子文件,加强档案数字资源长期保存已摆上重要日程。2019年2月和2022年2月,时任上海市委书记李强同志两次视察上海市档案馆时指出,要加强档案数字资源的长期安全保存问题的超前研究,找到对策。2021年3月,国家档案局专门立项科研项目数字档案储存介质耐久性及长期保存策略研究,由我承担主持这项国家重点课题的研究,历经三年多时间完成并通过国家档案局验收。之后,我又主持了相关应用性研究,形成了面向实际的、具有可操作性的调研报告,提出了现阶段档案数字资源长期保存主要存在以下八个方面的问题:一是档案数字资源数量激增而带来的庞大数据存储风险。近年来,我国法律法规保障方面不断取得突破,使电子文件归档与电子档案管理的路径逐步打通,电子档案在各级档案部门大量汇集。以上海市档案馆为例,其自2011年建设分布式存储系统,2018年扩容至400TB裸容量,因采用两副本模式,实际可用容量为200TB,目前已使用80TB,冗余120TB。当前存储系统主要存放数字化馆藏档案,单个文件几十个kB,2014年提高精度后单个文件200~300kB,截至2023年年底已超过2亿个文件。待接入文书档案、专业档案(音视频档案)、脱贫攻坚档案、防疫档案、国有企业退休职工人事档案、一网通办档案、立档单位档案后,总体数据量预计将超过500TB,远远超过现有可用容量。档案数字资源的数量呈指数激增,需要更多形式和数量的存储设备,如何存储如此庞大的数据是档案部门面临的问题。二是现有档案数字资源存储备份介质不能满足长期保存要求。从调研情况看,目前上海市档案馆和各个区级档案馆使用的存储备份介质主要是硬磁盘和磁带。硬磁盘用于档案数字资源的在线存储和在线备份,磁带用于档案数字资源的离线备份。但是,硬磁盘的寿命一般为5年左右,磁带的寿命在10年左右。现有的存储备份介质的寿命与档案数字资源长期保存的期限(数十年到上百年,甚至永久)相差甚远,存储备份介质本身并无法满足档案数字资源长期保存的要求,且存储介质已经使用多年,数据丢失的风险将大大增加。三是软硬件技术快速更新迭代使档案数字资源识读面临无法阅读的风险。档案数字资源的识读依赖于合适的软硬件环境,技术不断发展,软硬件更新升级迅速,档案数字资源的存储格式又具有多样性和易变性,档案数字资源往往和格式、软件、硬件捆绑在一起,即使存储介质完好,软件的技术过时也会造成许多旧的硬件设备无法与新的软硬件系统环境兼容,这就造成了一些档案数字资源的不可识读。设备老化和技术的频繁更新,给档案数字资源长期保存带来的问题,比载体寿命带来的问题更为严重。据调研了解,已有个别档案信息出现了因软硬件技术更迭问题而无法读取的情况。由于档案数字资源包含大量国家秘密和重要敏感信息,涉及政治、经济、文化、科技、军事等各个方面,一旦这些数据遭到破坏或丢失,将给国家及档案事业带来难以估量且无法弥补的损失。四是库房环境条件和控制水平良莠不齐亟待改善。国家对保存档案数字资源的库房环境等制定了相关的标准规定。根据《档案馆建筑设计规范》(JGJ 252000)相关规定,一般档案库房的温度为14~24℃,相对湿度为45%~60%。相比于传统的纸质档案,档案数字资源的存储介质有着更为苛刻的温、湿度要求,此外还有防火、防潮、防磁、防尘、防紫外线、防有害气体、防有害微生物等要求。通过实地调研发现,大多数档案部门有保存档案数字资源的专用库房并采用防磁柜,但仍有一部分档案馆由于资金有限,没有条件建立专门的档案数字资源存储库房,将档案数字资源存储介质与纸质档案并存,不利于档案数字资源的保管保存。五是档案数字资源长期保存维护量大、成本高。由于现有的硬磁盘、磁带等存储备份介质的寿命不符合长期保存的要求,因此在档案数字资源长期保存过程中需要不断对存储介质进行检测,对存储数据进行迁移等,数据维护的工作量非常大。存储设备达到保存期限后,要对设备进行升级、换代,需要重复投入大量的设备采购成本,再加上运维人工成本,设备运转所需的电力资源成本,总的加起来需要投入的成本非常高。六是档案数字资源遇到丢失、损坏等情况难以及时发现。档案数字资源具有易修改、易删除的特点,并且修改、删除之后也不容易被发现。在档案数字资源长期保存过程中,由于病毒入侵、黑客攻击极有可能遭到非法篡改和恶意破坏,由于人为操作失误造成数据丢失,由于设备的故障造成数据损坏。在现有长期保存管理模式下,由于缺乏定期的检测机制,这些现象的发生并不能被及时发现,可能给档案管理部门带来无法估量的损失。七是档案数字资源异质备份规范标准尚未纳入计划规划范畴。实现重要档案异质备份是档案数字资源长期保存的一项非常重要的工作。最新发布的《中华人民共和国档案法》明确电子档案与传统载体档案具有同等效力,可以以电子形式作为凭证使用,电子文件单套归档和电子档案单套管理将成为今后发展趋势。在单套制管理背景下,如何实现重要档案异质备份一直是困扰档案部门的问题。把电子档案全部打印成纸质档案进行异质保存显然不现实,既不经济也不便于管理。因此,在档案数字资源长期保存的规划中,档案数字资源异质备份的问题也必须统筹考虑。八是受核心技术被国外垄断制约档案数据存储安全隐患持续存在。目前,磁盘、磁带、光盘等存储介质的核心技术多由外国公司掌握,导致各地档案部门使用的存储设备和对应的软件系统多为国外品牌。蓝光光盘和磁带的相关组织和标准,也由国外行业牵头成立与制定。技术上的不可控使存储信息的保密性和安全性受到了严重威胁。在这种国际局势复杂多变、关键核心技术受制于人的背景下,一旦爆发大规模技术封锁,我国档案数据可能会出现存量数据无法读取、增量数据无处可存的风险。针对上述存在的问题,我们提出了以下十个方面的解决措施和实施方案。一是谋划搭建总体框架。按照《数字档案馆建设指南》和《数字档案馆系统测试办法》中的数字档案馆系统测试指标表的要求,数字档案馆建设应建立档案接收库、档案管理库、档案利用库和长期保存库。上海市档案馆建立档案数字资源长期保存库,实现和现有档案核心资源库(管理库)的物理分离。按照数字档案在线、离线、多套、异质、异地备份的要求,有序开展备份工作。档案数字资源长期保存库通过搭建专业化的备份环境,配置智能化的数字档案备份载体和设备,建立完善的备份策略,提供安全、可靠、经济、便捷的数字档案备份服务。总体框架自底向上分为三层:①搭建专业化的物理环境,根据需要选择磁盘、磁带、光盘、胶片等各类存储备份介质,按照档案库房十防要求,建设长期保存库的硬件环境。②配置各种存放不同特性存储介质的保管设备;由于存储介质本身的不可直读特性,还需配置各种存储介质的读取设备。③搭配完善的备份策略,按照档案长期保存的要求,提供档案长期保存过程中的自动备份、定期巡检、自动盘点等功能,实现对备份数字档案的全方位、智能化管理。二是构造备份管理系统。备份管理系统基于OAIS模型,实现对备份的数字档案和备份载体的统一信息化管理,包括数据可视化展示、存储备份介质管理、数字档案长期保存管理、系统管理等功能模块。①实现数据可视化。与备份中心各类智能设备集成,获取设备信息和环境信息,并对备份中心的设备、存储介质、数据、环境、预警等信息进行展示。②实现出入库、定期检测管理。提供出入库信息登记功能,包括单位名称、存储备份介质信息、备份数据介绍、出入库日期、存放位置、交接人等信息。对各类存储备份介质进行定期检测,确保存储备份介质长期可用,也便于发现问题并及时将旧存储介质中存储的数据迁移到新存储介质中。③实现智能巡检、数据恢复、转换迁移。自动完成数据巡检,生成巡检报告。当数据出现异常时,系统提供数据恢复功能,可自动从其他存储备份介质中恢复数据。可对系统中支持的各类预警进行设置,并对系统运行过程中产生的预警进行管理,全程记录预警处理过程、预警自动进行格式转换或者存储介质迁移。三是优选存储介质与存储设备。总体来说,作为档案数字资源长期保存的存储介质,不管是磁盘、磁带,还是光盘,都有其缺陷,都存在安全隐患,比如受高温、高湿、灰尘、电磁干扰、机械外力等环境的影响,或者本身材质损坏,信息都将无法读取,软硬件技术更新和设备老化同样会造成数字信息无法读取。另外,计算机病毒、黑客攻击等也会造成信息丢失。因此,在最好的技术还没有出现前,只能选择目前来说最适合自身实际的档案数字资源存储介质。比如蓝光光盘库。蓝光光盘库是一种以蓝光光盘或光盘匣为存储介质的具有高可靠性的海量数据近线存储设备,其通过机械手自动精确定位、抓取光盘,从而实现对光盘的自动化管理。蓝光光盘库一般由蓝光光盘、自动换盘机械手和蓝光光驱三部分组成。光盘库可以实现近线/离线存储,并具有很好的寻址能力;由于光存储介质的生命周期很长,因此,数据的保存时间越长,它的总体拥有成本越低;光存储介质一次性写入,不能修改和删除,抗电磁干扰,存放环境要求低,存储数据的安全性高。国家标准《磁光电混合存储系统通用规范》(GB/T 417852022)已正式发布,将推进光磁库产品更加的规范化、标准化。硬磁盘因其大容量、运行速度快、性价比高等优点,常选为在线备份的存储介质,可将所有数据都存储在硬磁盘上,当需要对数据进行查询或者出库时,可以快速地响应。档案级蓝光光盘因其使用寿命长、稳定性好、不可篡改的优点以及响应速度较慢的缺点,选为近线/离线存储备份介质,将所有数据在蓝光光盘上进行近线/离线备份。中长期规划采用磁光胶融合的存储介质选择策略,在选用硬磁盘和蓝光光盘的前提下,选择数字胶片作为长期存储介质。四是实施多套备份策略。按照档案管理要求的异地、异质、离线备份要求,基于硬磁盘、磁带、蓝光光盘、胶片不同存储介质的特点,建议采用4-3-2-1备份策略,实现档案数字资源的多套备份:4套数据(1套在线、1套近线、1套异地、1套异质),3种存储介质(磁盘、光盘/磁带、胶片),2套离线(光盘/磁带1套、胶片1套),1套异地(光盘)。需要说明的是,一套胶片异质备份,由于备份制作成本较高,基于性价比的综合考虑没有必要针对全部数据,只是针对珍贵的、重要的、价值较高的档案数字资源。五是实施备份更新策略。由于档案管理库对应的档案信息系统一般都已经建立了完善的数据级和系统级备份策略,基于备份软件定期地开展数据备份、系统备份等,总的来说已经具备了较好的数据安全性。因此,档案管理库中更新的档案数据,可以根据数据更新的频繁程度,按每月/每季度/每半年/每年一次将其更新至长期保存库中。数据进入长期保存库后,再按照4-3-2-1备份策略,利用不同的存储介质,制作多套备份数据,实现异地、异质、离线备份。六是实施数据恢复策略。在档案数字资源长期保存过程中,有可能因为各种原因导致数据丢失、损坏等。这时,我们首先从长期保存库中的在线备份进行数据恢复,如果在线备份数据完好,则将需要恢复的数据打包、出库,恢复至档案管理库中;如果在线备份数据也出现问题,则需要从离线备份数据恢复,从离线备份中将数据首先恢复到在线备份数据中,再从在线备份数据恢复至档案管理库中;如果遇到极端情况,离线备份数据也坏了,则需要从异质备份数据或者异地备份数据中将数据先恢复至在线备份数据中,再恢复至档案管理库中。当长期保存库中的各类存储备份介质在定期检测中发现问题时,需要及时从其他备份数据中进行数据恢复。在线备份数据出现问题,首先从离线备份数据中恢复;离线备份数据出现问题,马上再制作一套离线数据;在线备份数据和离线备份数据同时出现问题,则从异质备份数据或异地备份数据中恢复。七是实施存储介质迁移策略。《电子档案管理基本术语》(DA/T 582014)中对迁移进行了如下定义:在不改变文件格式的前提下,将电子档案由一种软硬件配置转移到另一种软硬件配置的过程。从定义中可以看出,迁移包括数据迁移、系统迁移、存储介质迁移。这里说的迁移主要是指存储介质迁移,就是在相同存储介质或者不同存储介质之间的数据拷贝,防止因为存储介质性能变化而导致数据丢失。在长期保存技术中,也将这种存储介质之间数据拷贝称为更新。通过对存储介质耐久性研究可以得知,硬磁盘的保存寿命大约为10年,硬磁盘上的数据要实现长期保存,必须每隔一定的周期就对硬磁盘上的数据进行迁移操作;档案级蓝光光盘的保存寿命为30年,在长期保存过程中也需要定期进行迁移操作确保长期安全保存。八是实施格式转换策略。将档案数字资源转换成符合长期保存要求的格式也是实现档案数字资源长期保存的非常重要的技术手段。一般来说,格式转换的原因主要有三类:第一类,将原始格式向符合长期保存要求的格式转换。档案数字资源产生时文件格式可能不符合长期保存的要求,为了确保档案数字资源的长期保存,档案数字资源进入长期保存库之前就应执行格式转换操作,将档案数字资源转换成符合长期保存要求的格式。《版式电子文件长期保存格式需求》(DA/T 472009)中给出了版式电子文件长期保存格式应满足的十一项需求:格式开放、不绑定软硬件、文件自包含、格式自描述、显示一致性、持续可解释、稳健、可转换、利于存储、支持技术认证机制、易于利用。《电子文件归档与电子档案管理规范》(GB/T 188942016)中要求照片类电子文件以JPG、TIF等格式归档,录音类电子文件以WAV、MP3等格式归档,录像类电子文件以MPG、MP4、FLV、AVI等格式归档。第二类,由于技术更新导致原有格式面临淘汰。档案数字资源大多是以某种编码形式存在的,其读取需要依靠计算机软硬件环境。虽然长期保存的档案数字资源已经转换成了符合长期保存要求的格式,但是由于技术的飞速发展,无法确保几十年后该格式依然适合长期保存。当这些格式被废弃或者取代后,以这些格式保存的档案数字资源将面临无法读取的风险。并且在目前已知的技术更新频率下,技术淘汰给档案数字资源带来的威胁远远大于存储介质的损坏给其带来的挑战。因此,在长期保存过程中,要时刻关注技术更新,当某些格式即将面临淘汰时,要及时地进行格式转换,向更高级的版本或者更适合长期保存的格式转换。第三类,国家安全战略要求向自主可控格式转换。档案数字资源长期保存同样也要考虑信创背景下自主可控格式转换的情况。比如档案馆大量存在的PDF文件,将来可能需要转换成自主可控的OFD格式。九是建设电子档案库房。由于电子文件易修改、环境依赖、存储介质可分离等特性,单一的存储备份介质显然无法满足电子档案长期安全保存的需要,比较切实可行的措施是采用不同存储介质多套备份组合的方式来确保档案数据安全。因此,电子档案库房实际保存的是存储电子档案的物理载体,比如磁盘、光盘、磁带、胶片等。另外,由于存储介质本身的不可直读特性,还需要配置各种读取设备;由于各种存储介质的保管条件要求不同,还需要配置各种存放不同特性存储介质的保管设备,这些存储介质读取和保管设备统称电子档案库房装具。电子档案库房应严格落实档案安全保护要求,确保按照防火、防盗、防水、防潮、防尘、防光、防虫、防鼠、防高温、防污染等要求建设,让电子档案存放更安全。十是形成完善制度办法。为加强数字档案信息安全管理,形成完善多套管理制度和规范办法,主要有计算机系统安全管理制度、计算机网络安全管理制度、计算机及相关设备安全管理制度、计算机主机房安全管理制度、存储介质安全管理制度、数据备份同步与恢复管理制度、信息分类分级标识管理制度、信息系统数据安全管理制度、数据维护操作管理制度、信息系统涉密人员管理制度、信息安全保密员制度、计算机终端外设设备移动存储介质安全保密检查制度、计算机病毒防范管理规范等。其间开展了《上海市档案局数据应急恢复测试》演练并形成报告。我们的研究和应用仍然是初步的。本专著是在国家档案局立项科研项目数字档案储存介质耐久性及长期保存策略研究研究成果基础上深化调研扩充而形成的。本课题研究团队主要人员是肖林、龙凌云、张建明、杨安荣、徐颖珺、常亚杰、单良、夏广平、路斌、程望远,由我主持研究和撰著。本课题研究和撰著基本完成后,我牵头又开展了一系列应用性的调研并形成了调研报告,该调研报告的主要内容,是为序。
2024年5月
肖林,毕业于上海交通大学,管理学博士,研究员、博士生导师。现任上海市档案局巡视员(正厅局级),上海市档案系列高级职称评委会主任委员。历任上海市人民政府研究室副主任,市发展和改革委员会副主任,市发展改革研究院院长,市人民政府发展研究中心主任、党组书记。主持完成咨政报告300余篇,主持国家和上海市重点决策咨询研究课题150余项,其研究成果获中国发展研究奖、国家发展和改革委员会优秀研究成果一、二、三等奖20余项。发表论文500余篇。出版专著20余部,其中《新供给经济学》《中国经济学大纲》《国家试验》等获上海市银鸽奖一等奖、上海图书奖一等奖和二等奖。2018年以来主持完成10余项国家档案局科研项目和国家档案行业标准,以及国家人社部档案数字化管理师国家职业技能标准编制。
目录
引言1
1档案数据长期保存概述31.1档案数据概述31.1.1档案数据的概念31.1.2档案数据的特点41.1.3档案数据的来源与分类51.1.4档案数据的管理71.2长期保存概述71.2.1长期保存的概念71.2.2长期保存的期限91.2.3长期保存的目标101.2.4长期保存的对象111.2.5长期保存的要求121.2.6长期保存技术措施141.3档案数据长期保存的特点181.3.1档案数据需要超长的保存周期181.3.2档案数据具有严格的保存要求191.3.3档案数据形式类型非常丰富191.3.4档案数据的容量非常大191.4档案数据长期保存面临的挑战201.5国内外研究现状211.5.1相关基础研究211.5.2存储介质分析选择研究221.5.3存储系统研究231.5.4长期保存系统研究241.5.5长期保存策略研究251.5.6实践应用26
2档案数据保存现状及存在的问题362.1档案数据保存现状分析362.1.1数据量情况362.1.2存储备份情况372.1.3存储介质保管情况392.2档案数据保存存在的问题分析40
3档案数据存储介质及耐久性分析443.1传统存储介质概述443.1.1总体概述443.1.2磁存储介质453.1.3光存储介质483.1.4电存储介质533.1.5缩微胶片553.2传统存储介质耐久性分析583.2.1磁带耐久性分析583.2.2硬磁盘耐久性分析623.2.3蓝光光盘耐久性分析643.2.4胶片耐久性分析693.3传统存储介质对比分析733.4存储介质发展趋势743.4.1数字胶片743.4.2全息存储763.4.3玻璃存储793.4.4DNA存储803.5国内存储厂商及产品823.5.1磁光电混合存储厂商及产品823.5.2胶片设备厂商及产品84
4档案数据长期保存策略研究864.1档案数据长期保存总体框架864.1.1基础设施864.1.2存储载体864.1.3管理软件874.1.4保存策略874.2档案数据长期保存管理策略884.2.1数据管理884.2.2载体管理904.2.3环境管理944.3档案数据长期保存技术策略994.3.1备份策略994.3.2载体迁移策略1044.3.3格式转换策略105
5电子档案备份中心建设方案1085.1总体设计1085.1.1建设背景1085.1.2电子档案备份中心定位1095.1.3电子档案备份中心架构1105.1.4备份载体选择1115.2软硬件建设方案1125.2.1库房建设1125.2.2装具建设1145.2.3管理系统建设1165.3策略设计方案1195.3.1入库管理1195.3.2日常管理1205.3.3出库管理1215.3.4策略汇总表123
参考文献125
后记128