定 价:58 元
丛书名:国家社会科学基金项目“图书馆资源组织语义化理论及方法研究”组织
- 作者:刘耀 著
- 出版时间:2018/2/1
- ISBN:9787518936427
- 出 版 社:科学技术文献出版社
- 中图法分类:G253.5
- 页码:185
- 纸张:胶版纸
- 版次:1
- 开本:16开
-
商品库位:
图书馆资源组织语义化是图书馆资源语义标注的浅层标注,是内容语义化与形式语义化交互实现的过程。《图书馆资源组织语义化理论及方法研究》在借鉴国内外研究成果的前提下,提出了形式语义化与内容语义化交互的资源组织语义化理论与技术方案。在整体上以“原理方法、技术实现、案例应用”为结构体例,以“技术工具化、工具业务化、业务自动化”为目标,详细阐述了图书馆资源组织语义化涉及的资源获取、资源解析、数据交换、资源加工、资源结构化、本体构建、语义标注等关键技术的原理、流程及方法,并以真实的行业领域应用案例阐述了实现资源组织语义化的全过程,以便读者能够从理论和实践两个方面理解相关思想及方法,达到既能掌握知识又能运用技术进行资源组织语义化实践的目标。
光阴荏苒,我在中国科学技术信息研究所工作已有10年光景。2007年,我从北京大学计算语言学研究所博士后出站,之后一直从事自然语言处理、知识组织与知识工程相关的工作。多年在一线进行研究与实践工作,一路走来积累了丰富的经验,在不断迭代和升华中,逐渐形成了一套完整的覆盖资源获取、资源加工到知识服务全流程的思想理论。在该理论思想的指导下,围绕着技术目标,我领导团队逐步开展工程实践研究,对理论方法进行验证。同时,根据工程实践中的具体问题,进行关键技术攻关,对其中的一些流程、步骤、细节等进行了微调和补充,不断升级与完善PYROIS系统。PYROIS系统初建于2007年,2011年年初,PYROIS系统1.0版本上线,目前该系统3.0版本已研发完成。
我在很早之前就有想要写这本书的想法,分享研究实践中的一些想法和体会,为从事相关研究的人员提供一些思路、方法和参考,但一直没有时间。其间,也陆陆续续地发表了一些研究论文,但没有进行系统性阐述。PYROIS系统3.O版上线之后,空闲时间较以前也多了些,我便抓紧时间完成了早已有的写书的想法。
本书的主要思想是利用自然语言处理技术和机器学习方法对已有的公认领域知识进行重构并加以利用;在构建领域本体的基础上,对相关文献进行语义标注;并在大量内容相对语义化的基础上,结合传统组织资源,通过机器学习等方法,生成初始语义元数据;然后,在辅助平台的帮助下,实现图书馆资源组织语义化过程与语义元数据体系构建同步进行,将语义标注文献与语义索引分别存储,实现图书馆资源组织语义化。
在思想理论指导及技术目标的驱动下,相关研究及实践工作体现在以下几个方面。
知识元数据库构建技术。从充分开发和利用百科全书资源的角度出发,利用自然语言处理技术和语言分析工具分析百科全书资源,发现其中隐含的知识点及其之间的内在关联,将大量的、不断出现的知识点结构化地组织和关联起来,构成智能连接的网状图,建立知识元数据库。
语义元数据构建与标注一体化技术。将图书馆资源组织语义化看作图书馆资源语义标注的浅层标注,是内容语义化与形式语义化交互实现的过程,基于NIP理论与方法,结合传统图书馆资源组织方式与领域本体构建技术,搭建辅助构建及标注一体化平台,实现语义元数据体系构建与资源组织语义化过程同步实施。
领域本体自动构建技术。通过领域本体构建、语义标注等信息技术的融合与集成,将行业领域知识合理分类,构建以知识点为基本单元的图书、期刊、专利数据库,以智能检索、知识语义导航、可视化等方式为科学研究、技术开发、工程设计、工程应用的开展提供知识服务,实现知识的共享与重用。
一体化爬虫技术。针对语义爬虫存在的不足,实现从一个概念出发,自动生成语义结构,用该语义结构指导爬虫抓取数据资源;同时,在爬虫爬行过程中,不断从数据库中抽取相关的概念及其之间的关系,并填充进语义结构,实现语义结构进化和爬虫爬行迭代一体化。
刘耀,博士,中国科学技术信息研究所研究员;国家科技信息资源综合利用与公共服务中心副主任:北京大学信息管理系管理学博士:北京大学计算语言学研究所出站博士后;中国社会科学情报学会理事会常务理事、副秘书长:中国计算机学会杰出会员:北京大学软件与微电子学院外聘硕士研究生导师;主要从事自然语言处理、知识工程方向研究。先后发表学术论文80余篇,出版学术著作5部,主编、副主编教材各1部,参编著作6部;先后主持、参加完成包括国家重点研发计划、国家科技支撑计划、国家重点基础研究发展计划(973)、国家社会科学基金在内的科研项目30余项(主持10余项);获省部级奖励5项、行业及协会奖5项,申请发明专利3项,申请软件著作权20余项。
1 绪论
1.1 研究意义
1.2 研究思路
1.3 研究内容
1.4 关键问题
1.5 创新之处
1.6 撰写思路
1.7 本章小结
2 多资源融合
2.1 资源获取
2.1.1 网络资源获取
2.1.2 数据库资源获取
2.1.3 本地资源获取
2.2 资源解析
2.2.1 多种资源类型解析
2.2.2 多模态资源的解析
2.3 数据交换
2.3.1 数据交换技术
2.3.2 标准化体系建设
2.4 资源存储
2.5 本章小结
3 资源加工与结构化
3.1 占构化语料加工
3.1.1 词性标注及消歧
3.1.2 词性标注及消歧的主要功能
3.1.3 句法自动标注
3.1.4 语义角色自动标注
3.1.5 文本分割
3.1.6 句间及段落关系标注
3.2 结构化词表构建
3.2.1 专业词典构建
3.2.2 语义词典构建
3.2.3 概念词表构建
3.2.4 同义词表构建
3.3 定制化处理
3.3.1 基本原理
3.3.2 模型构建
3.3.3 实验与结果分析
3.4 本章小结
4 本体构建技术
4.1 相关理论
4.2 总体框架
4.2.1 基础流程
4.2.2 扩充流程
4.3 模型构建
4.3.1 树状结构到多层嵌套网状结构
4.3.2 文献检索到专家系统
4.3.3 自然语言描述到主题词描述
4.4 概念获取
4.4.1 基本思想
4.4.2 技术实现
4.4.3 实验与结果分析
4.5 属性获取
4.5.1 基本思想
4.5.2 技术实现
4.5.3 实验与结果分析
4.6 关系获取
4.6.1 基本思想
4.6.2 技术实现
4.6.3 实验与结果分析
4.7 本章小结
5 语义资源生成与标注一体化
5.1 语义资源生成
5.1.1 基于种子文件
5.1.2 基于本体结构与语料
5.2 语义标注
5.2.1 技术框架与思路
5.2.2 语义标注算法
5.2.3 实验与结果分析
5.3 语义资源评价
5.3.1 概念覆盖程度评价
5.3.2 属性完整性评价
5.3.3 语义关系复杂度评价
5.4 本章小结
6 应用案例研究
6.1 雷达语义资源生成与标注一体化
6.1.1 目标与要求
6.1.2 分析与构建
6.1.3 构建结果
6.1.4 拓展应用
6.2 面向技术创新的铝行业资源组织语义化
6.2.1 目标与需求
6.2.2 分析与构建
6.2.3 构建结果
6.2.4 应用服务
6.3 本章小结
参考文献