返回首页

联手信息系统专业委员会:“知识图谱数据管理系统”术语发布 | CCF术语快线

阅读量:43 2021-10-11 收藏本文

本期发布术语热词:知识图谱数据管理系统(Knowledge Graph Data Management System)。


开篇导语:


本期发布术语热词:知识图谱数据管理系统(Knowledge Graph Data Management System)。知识图谱在新一代人工智能中发挥着核心基础作用。知识图谱数据管理系统是为知识图谱数据提供存储、查询、更新、推理和分析服务的一种数据管理系统。


知识图谱数据管理系统

(Knowledge Graph Data Management System)

作者:王鑫(天津大学),赵翔(国防科技大学)


InfoBox:

中文名:知识图谱数据管理系统

外文名:Knowledge Graph Data Management System

简写:KGDMS

学科:知识工程

实质:管理知识图谱数据的软件系统


基本简介:

知识图谱数据管理系统是为知识图谱数据提供存储、查询、更新、推理和分析服务的一种数据管理系统。与传统数据管理系统相比,知识图谱数据管理系统遵循知识图谱数据模型,具备知识推理和知识分析等功能。知识图谱数据管理系统是知识图谱信息系统的基础设施。


背景:

知识图谱在新一代人工智能中发挥着核心基础作用。随着知识图谱数据规模的增长,已有的数据管理系统无法有效适配和满足知识图谱数据的管理需求。一方面,关系数据模型与知识图谱数据模型之间存在显著差异;另一方面,已有数据库管理系统缺少支撑知识图谱应用的必要功能。知识图谱数据管理系统,除知识图谱数据的存储、查询、更新等传统数据管理功能外,还需支持知识图谱的推理和分析功能。


研究概况:


知识图谱数据管理系统以知识图谱数据模型为核心,主流模型包括RDF图模型[1]和属性图模型[2]。两者相较而言,RDF图模型具备基于描述逻辑的本体定义能力,属性图模型在表示图数据实例层面较为便捷但缺乏本体定义手段。根据数据模型的不同,RDF三元组库和图数据库分别是面向RDF图模型和属性图模型的知识图谱数据管理系统。此外,已有兼容RDF和属性图的统一数据模型的知识图谱管理系统的研发工作[3]。关于知识图谱数据管理系统的研究综述参见文献[4]。


知识图谱数据管理系统的存储管理方法,可分为两类:


基于关系的知识图谱存储管理,即以关系数据库作为物理存储的知识图谱数据存储方案,主要包括属性表[5]、垂直划分[6]、DB2RDF[7]等。


原生知识图谱存储管理,即专门为知识图谱而优化设计的数据存储方案,主要包括无索引邻接(index-free adjacency)[8]、六重索引[9]、VS*树[10]等。


知识图谱数据管理系统的查询语言,用于支持用户完成图模式匹配查询、导航式查询、分析型查询和数据更新维护等任务。根据数据模型的不同,可分为两类:


面向RDF图的查询语言,主要是SPARQL语言[11],由W3C制定的RDF图标准查询语言,具有严格定义的语法和语义。


面向属性图的查询语言,包括Cypher[12]、Gremlin[13]、PGQL[14]、G-CORE[15]等多种查询语言,目前国际标准化组织在制定属性图的统一查询语言GQL[16]。


知识图谱分析查询功能,涵盖了大量图计算算法,例如,PageRank、最短路径、连通分量、聚集系数等,同时还包括基本的图谱表示学习算法,例如,TransE[17]、DistMult[18]、GraphSAGE[19]等。


知识图谱数据管理系统,与关系数据管理系统相比,还应支持知识推理功能,即依据某种规则系统,根据系统中已有的显式知识推导出系统中没有的隐式知识,但目前并不是所有的知识图谱数据管理系统都支持该功能。此外,知识图谱数据管理系统在事务处理方面的研发工作较少,主要沿用了关系数据管理系统的事务管理理论与方法。


知识图谱数据管理系统下一步的研发重点方向包括:(1)基于统一数据模型的知识图谱存储管理与查询处理方案;(2)知识图谱数据管理的事务处理机制;(3)分布式知识图谱数据管理理论与方法;(4)知识图谱数据管理系统对知识推理的支持;(5) 知识图谱数据管理系统为下游人工智能任务提供服务的机制。


参考文献:

[1] Graham Klyne, Jeremy J. Carroll, and Brian McBride. RDF 1.1 Concepts and Abstract Syntax. W3C Recommendation. (2014-02-25). https://www.w3.org/TR/rdf11-concepts/.
[2] Thomas Frisendal. Property Graphs - Graph Data Modeling. http://graphdatamodeling.com/Graph%20Data%20Modeling/GraphDataModeling/page/PropertyGraphs.html. 
[3] 刘宝珠, 王鑫, 柳鹏凯, 李思卓, 张小旺, 杨雅君. KGDB: 统一模型和语言的知识图谱数据库管理系统. 软件学报, 32(3):781-804, 2021.
[4] 王鑫, 邹磊, 王朝坤, 彭鹏, 冯志勇. 知识图谱数据管理研究综述. 软件学报, 30(7):2139-2174, 2019.
[5] Wilkinson K. Jena property table implementation. In: Paul R Smart, ed. Second International Workshop on Scalable Semantic Web Knowledge Base Systems. Athens: 2006. 35-46.
[6] Abadi D J, Marcus A, Madden S R. SW-Store: a vertically partitioned DBMS for Semantic Web data management. Vldb Journal, 2009, 18(2):385-406.
[7] Bornea M A, Dolby J, Kementsietsidis A. Building an efficient RDF store over a relational database. In: Kenneth Ross, ed. Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2013. 121-132.
[8] Robinson, Ian, Jim Webber, and Emil Eifrem. Graph databases. 2nd ed., San Francisco: O'Reilly Media, 2015. 42-58.
[9] Neumann T, Weikum G. RDF-3X: a RISC-style engine for RDF. Proceedings of the VLDB Endowment, 2008, 1(1): 647-659.
[10] Zou L, Özsu M T, Chen L. gStore: a graph-based SPARQL query engine. The VLDB journal, 2014, 23(4): 565-590.
[11] Harris S, Seaborne A, Prud’hommeaux E. SPARQL 1.1 query language. W3C recommendation, 2013, 21(10): 778.
[12] Cypher Query Language Reference (Version 9). https://s3.amazonaws.com/artifacts.opencypher.org/openCypher9.pdf
[13] Apache TinkerPop. TinkerPop3 Documentation v.3.5.1. (2021-08-29). http://tinkerpop.apache.org/docs/3.5.1/reference/.
[14] Oracle and/or its affiliates. Oracle PGQL 1.1 Specification. (2018-03-21). http://pgql-lang.org/spec/1.1/.
[15] Angles R, Arenas M, Barceló P. G-CORE: A core for future graph query languages. In: Gautam Das, ed. Proceedings of the 2018 International Conference on Management of Data. Houston: ACM, 2018. 1421-1432.
[16] GQL Standard. https://www.gqlstandards.org/
[17] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, Oksana Yakhnenko. Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013.
[18] B. Yang, W.-t. Yih, X. He, J. Gao, and L. Deng, “Embedding entities and relations for learning and inference in knowledge bases,” in ICLR 2015, pp. 1–13.
[19] William L. Hamilton, Rex Ying, Jure Leskovec. Inductive Representation Learning on Large Graphs. NIPS 2017. https://arxiv.org/abs/1706.02216

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847