本书共七章,内容包括:绪论、相关基础理论、基于压缩实体摘要图的RDF数据关键字查询方法、基于实体类型关系摘要的RDF数据关键字查询方法、多索引的RDF数据关键字查询方法、两阶段SPARQL查询优化处理、总结。
随着语义Web技术的不断发展和应用,万维网上充满了大量可读取、可被机器理解和处理的RDF数据,RDF数据关键字杳询问题的研究已经成为当今语义Web研究的一个热点。无论是终端用户还是应用系统,都有着对RDF数行查询的需求。但是,RDF数据的标准查询语言SPARQL对于普通用户来说过于复杂,用户既不了解SPARQL查询的语法和语义,更没有掌握待查询的RDF数据的模式信息。因此,提出一种基于查询转换的方法来实现RDF数据关键字查询,通过将关键字查询转换为SPARQL查询,借助现有的比较的SPARQL搜索引擎对RDF数行查询。另外,提出两阶段查询优化方法可以对生成的SPARQL查行处理,以提高查询执行的效率。本书的主要贡括以下几个方面:
提出了一种基于压缩实体摘要图的RDF数据关键字查询方法。从大规模的RDF数据中,提取实体及实体关联,为了方便查询转换,将实体的类型封装在实体节点当中,从而建立了一个压缩实体摘要索引。利用双向搜索算法,在这个压缩实体摘要索引上搜含所有关键字实体的子图,即找到对应的查询变量之间的关系,然后将这些子图转换成SPARQL查询,后利用现有的SPARQL搜索引行RDF数据的查询。
提出了一种基于实体类型关系摘要的RDF数据关键字查询方法。通过概括出RDF数据实体类型之间的关系,定义了一种面向实体类型关系的摘要索引,从转换的目标对象SPARQL的角度出发,该摘要索引的构建利用了SPARQL1.pan>的属性路径操作符括谓语路径操作符、可选路径操作符“|”以及序列路径操作符“/”等。该索引不仅使关键字查询向SPARQL查询的转换更为简单、方便以及,而且该摘要索引弥补了现有的用于查询转换索引的缺陷,能够完整地概括出RDF数据中所有实体类型之间的关系。后,将在此摘要索引上找含所有关键字实体的类型关系的top-子图,并转换成SPARQL查询,利用现有的SPARQL搜索引行RDF数据的查询。
提出了一种利用多索引来实现RDF数据关键字的查询方法,事先在RDF数据上建立多个索引,用于定位关键字到指定的实体的关键字倒排索引和用于搜索top-k子图的r-半径领域索引、r半径领域内的短路径索引以及用于子图向SPARQL转换的r半径领域内的短属性路径索引。通过这些索引能够快速行关键字查询向SPARQL查询转换。虽然索引的存储开销较大,不过利用“空间换时间”的思想,很大程度地提高了查询效率。后,利用现有的SPARQL搜索引擎对RDF数行查询。另外,对本书提出的三种不同的RDF数据关键字查询方行了分析和比较,分别比较了三种方法用于关键字查询向SPARQL查询转换服务的索引、关键字索引、top-k子图的搜索算法以及用于辅助图搜索的索引结构等。
针对生成的SPARQL查询本身所具有的特点,提出了一个两阶段的SPAR-QL查询法,对生成的SPARQL查行优化处理。阶段,把SPARQL查询中含有相同变量的联结划分为一块,通过计算每块内选择度来重新排列三元组模式的联结顺序。第二阶段,利用属性路径索引对剩余的联行中间结果过滤。不但利用了RDF图中的属性路径,而且还考虑了三元组模式中的选择度问题,大幅度地减少了查询在联结过程中产生的中间结果数量,从而改善了查询质量,提高了查询效率。
1998年,万维网的发明人Tim Berners Lee提出了“语义万维网”(SemanticWeb)的设想。200pan>年,《科学美国人》杂志刊登题为“The Semantic Web”的科普文章,宣告了“语义网”的诞生。“语义网”的愿景为“使计算机更能解读万维网”。
万维网是一个文字、图片、声音及的网络,作为人们在因特网上获取和发布信息的重要手段和途径,万维网逐渐成为巨大的信息资源仓库,计算机对于这样的万维网只发挥了有限的作用,它们索引关键词,将信息从服务器传输到客户端,而已。所有的智能工作(选择、组合及聚集等)必须通过人类读者来完成。语义网使“万维网上的数据为计算机可理解和处理”成为现实。从此,语义Web技术的发展有了一个新的里程碑。W3C(World Wide Web Consortium,万维网联盟)制定了一系列的语义网技术规范括描述各种资源和它们之间语义关系的资源描述框架(Resource Description Framework,RDF)、万维网本体语言(OWL2)、RDF数据的标准查询语言(SPARQL)及规则交换格式(RIF)等。这些技术规范间的关系在图1.pan>所示W3C语义Web分层模型中有所体现。语义网为万维网上的知识表示、推理、交换和复用奠定了理论基础。
Web数据呈现爆炸式的增长。大规模可用的RDF数据被发布。RDF已经被许多项目和机构用来表示它们的元数据,如DBLP,Wikipedia等;IBM智慧地球的研究中心采用了RDF数据描述以及集成语义;Freebase知识库是语义网数据库技术公司Metaweb维护的,其中体育、电影等众多领域元信息都是用RDF表示的,生物、化学、生物医学、地理等多个领域都在 RDF 基础行建立领域本体。根据 W3C的SWEO(Semantic Web Ed-ucation and Outreach)研究小组的不统计,截止到2017年4月,在互联网上的各种RDF三元组的数量括Linked Open Data,YAGO,DBpedia,Freebase等RDF数据集)已经达到620亿,其中涉及的实体数量更多。互联网已经从只含网页和网页之间超链接的文档万维网转变成了能够对实体和实体之间丰富的关行描述的数据万维网。传统互联网中的文档检索通常是将HTML页面(文档)看作是信息的载体,用户的查询返回结果则是若含这些查询关键词的文档,而语义Web数据搜索用户击中的三元组中描述的实体。语义Web数据的搜索问题已经成为当今语义网技术的一个重要研究热点,各大搜索公司(如Google、百度、搜狗等)纷纷构建知识图谱(分别为Knowledge Graph、知心和知立方)来搜索质量。
RDF数据的搜索需要处理粒度更细的结构化语义数据。原有的针对非结构化的Web文档的存储和索引的各种成熟技术已经对RDF数据不再适用,目前的大量排序算法也不能直接运用到面向实体和其关联的语义搜索中。SPARQL(Simple Protocol and RDF Query Language)是RDF数据的查询语言,已于2008年pan>月15日正式成为W3CRDF数行有效的查询。正如SQL是数据库查询的标准,SPARQL是查询RDF数据的标准。由于RIF、RDFS和OWL都是使用RDF数据模型,因此SPARQL也能够作为这三者的查询语言。SPARQL查询的基本组成单元是三元组模式(Triple Pattern),三元组模式与RDF三元组类似,区别在于其主语(Subject)、谓语(Predicate)和宾语(Object)位置可以设置为变量。除了SPARQL查询语言外,还有RQL、RDQL(RDF dataquery language)以及SeRQL等RDF数据查询语言。但是,这些查询语言对于普……