本期发布术语热词:知识图谱数据管理系统(Knowledge Graph Data Management System)。
开篇导语:
本期发布术语热词:知识图谱数据管理系统(Knowledge Graph Data Management System)。知识图谱在新一代人工智能中发挥着核心基础作用。知识图谱数据管理系统是为知识图谱数据提供存储、查询、更新、推理和分析服务的一种数据管理系统。
知识图谱数据管理系统
(Knowledge Graph Data Management System)
作者:王鑫(天津大学),赵翔(国防科技大学)
InfoBox:
中文名:知识图谱数据管理系统
外文名:Knowledge Graph Data Management System
简写:KGDMS
学科:知识工程
实质:管理知识图谱数据的软件系统
基本简介:
知识图谱数据管理系统是为知识图谱数据提供存储、查询、更新、推理和分析服务的一种数据管理系统。与传统数据管理系统相比,知识图谱数据管理系统遵循知识图谱数据模型,具备知识推理和知识分析等功能。知识图谱数据管理系统是知识图谱信息系统的基础设施。
背景:
知识图谱在新一代人工智能中发挥着核心基础作用。随着知识图谱数据规模的增长,已有的数据管理系统无法有效适配和满足知识图谱数据的管理需求。一方面,关系数据模型与知识图谱数据模型之间存在显著差异;另一方面,已有数据库管理系统缺少支撑知识图谱应用的必要功能。知识图谱数据管理系统,除知识图谱数据的存储、查询、更新等传统数据管理功能外,还需支持知识图谱的推理和分析功能。
研究概况:
知识图谱数据管理系统以知识图谱数据模型为核心,主流模型包括RDF图模型[1]和属性图模型[2]。两者相较而言,RDF图模型具备基于描述逻辑的本体定义能力,属性图模型在表示图数据实例层面较为便捷但缺乏本体定义手段。根据数据模型的不同,RDF三元组库和图数据库分别是面向RDF图模型和属性图模型的知识图谱数据管理系统。此外,已有兼容RDF和属性图的统一数据模型的知识图谱管理系统的研发工作[3]。关于知识图谱数据管理系统的研究综述参见文献[4]。
知识图谱数据管理系统的存储管理方法,可分为两类:
基于关系的知识图谱存储管理,即以关系数据库作为物理存储的知识图谱数据存储方案,主要包括属性表[5]、垂直划分[6]、DB2RDF[7]等。
原生知识图谱存储管理,即专门为知识图谱而优化设计的数据存储方案,主要包括无索引邻接(index-free adjacency)[8]、六重索引[9]、VS*树[10]等。
知识图谱数据管理系统的查询语言,用于支持用户完成图模式匹配查询、导航式查询、分析型查询和数据更新维护等任务。根据数据模型的不同,可分为两类:
面向RDF图的查询语言,主要是SPARQL语言[11],由W3C制定的RDF图标准查询语言,具有严格定义的语法和语义。
面向属性图的查询语言,包括Cypher[12]、Gremlin[13]、PGQL[14]、G-CORE[15]等多种查询语言,目前国际标准化组织在制定属性图的统一查询语言GQL[16]。
知识图谱分析查询功能,涵盖了大量图计算算法,例如,PageRank、最短路径、连通分量、聚集系数等,同时还包括基本的图谱表示学习算法,例如,TransE[17]、DistMult[18]、GraphSAGE[19]等。
知识图谱数据管理系统,与关系数据管理系统相比,还应支持知识推理功能,即依据某种规则系统,根据系统中已有的显式知识推导出系统中没有的隐式知识,但目前并不是所有的知识图谱数据管理系统都支持该功能。此外,知识图谱数据管理系统在事务处理方面的研发工作较少,主要沿用了关系数据管理系统的事务管理理论与方法。
知识图谱数据管理系统下一步的研发重点方向包括:(1)基于统一数据模型的知识图谱存储管理与查询处理方案;(2)知识图谱数据管理的事务处理机制;(3)分布式知识图谱数据管理理论与方法;(4)知识图谱数据管理系统对知识推理的支持;(5) 知识图谱数据管理系统为下游人工智能任务提供服务的机制。
参考文献:
[1] Graham Klyne, Jeremy J. Carroll, and Brian McBride. RDF 1.1 Concepts and Abstract Syntax. W3C Recommendation. (2014-02-25). https://www.w3.org/TR/rdf11-concepts/.
[2] Thomas Frisendal. Property Graphs - Graph Data Modeling. http://graphdatamodeling.com/Graph%20Data%20Modeling/GraphDataModeling/page/PropertyGraphs.html. [3] 刘宝珠, 王鑫, 柳鹏凯, 李思卓, 张小旺, 杨雅君. KGDB: 统一模型和语言的知识图谱数据库管理系统. 软件学报, 32(3):781-804, 2021.[4] 王鑫, 邹磊, 王朝坤, 彭鹏, 冯志勇. 知识图谱数据管理研究综述. 软件学报, 30(7):2139-2174, 2019.[5] Wilkinson K. Jena property table implementation. In: Paul R Smart, ed. Second International Workshop on Scalable Semantic Web Knowledge Base Systems. Athens: 2006. 35-46.[6] Abadi D J, Marcus A, Madden S R. SW-Store: a vertically partitioned DBMS for Semantic Web data management. Vldb Journal, 2009, 18(2):385-406.[7] Bornea M A, Dolby J, Kementsietsidis A. Building an efficient RDF store over a relational database. In: Kenneth Ross, ed. Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2013. 121-132.[8] Robinson, Ian, Jim Webber, and Emil Eifrem. Graph databases. 2nd ed., San Francisco: O'Reilly Media, 2015. 42-58.[9] Neumann T, Weikum G. RDF-3X: a RISC-style engine for RDF. Proceedings of the VLDB Endowment, 2008, 1(1): 647-659.[10] Zou L, Özsu M T, Chen L. gStore: a graph-based SPARQL query engine. The VLDB journal, 2014, 23(4): 565-590.[11] Harris S, Seaborne A, Prud’hommeaux E. SPARQL 1.1 query language. W3C recommendation, 2013, 21(10): 778.[12] Cypher Query Language Reference (Version 9). https://s3.amazonaws.com/artifacts.opencypher.org/openCypher9.pdf[13] Apache TinkerPop. TinkerPop3 Documentation v.3.5.1. (2021-08-29). http://tinkerpop.apache.org/docs/3.5.1/reference/.[14] Oracle and/or its affiliates. Oracle PGQL 1.1 Specification. (2018-03-21). http://pgql-lang.org/spec/1.1/.[15] Angles R, Arenas M, Barceló P. G-CORE: A core for future graph query languages. In: Gautam Das, ed. Proceedings of the 2018 International Conference on Management of Data. Houston: ACM, 2018. 1421-1432.[16] GQL Standard. https://www.gqlstandards.org/[17] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, Oksana Yakhnenko. Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013.[18] B. Yang, W.-t. Yih, X. He, J. Gao, and L. Deng, “Embedding entities and relations for learning and inference in knowledge bases,” in ICLR 2015, pp. 1–13.计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。
术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。
新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。