阳振坤:融合数据库的思考 | CNCC专家谈
在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在130个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。
本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!
本期特别嘉宾:
阳振坤 CCF会士,OceanBase创始人兼首席科学家
作者:CNCC2023【下一代数据融合技术趋势】技术论坛主席阳振坤
融合数据库的思考
天下大势,分久必合,合久必分。
1960年代,层次数据库和网状数据库诞生,有力地推动了金融及相关业务系统的电子化和自动化。
1980年代,随着关系数据库逐步成熟,关系模型的坚实的数学基础和良好的抽象与表达能力使得关系数据库得以一统天下。
1990年代,随着互联网的兴起以及数字化和信息化的发展,不仅数据的数量快速增加,数据的种类也迅猛增加,数据量和数据类型都超出了当时的关系数据库的处理能力,各种非关系型的数据库系统如雨后春笋,不断涌现:
分析数据库:通常分为在线分析数据库和离线分析数据库,在线数据分析,也称为联机分析处理(OLAP),能够实时或准实时地完成用户的分析请求,而离线数据分析通常处理更大的数据量,可能需要几分钟、几小时甚至几天才能完成用户的分析请求。分析数据库通常是分布式的,少则几个、几十个计算节点,多则几百、几千个计算节点,能够处理TB级、PB级甚至更大的数据。
键值数据库:即key-value数据库,简称KV数据库,对键值对进行保存、读取、更新和删除等各种处理,具有接口简单、查询速度快的特点。
文档数据库:主要存储和处理各种半结构化的文档,例如JSON和XML等,文档数据库的每个文档可以有不同的数据结构,有较大的灵活性。
时序数据库:用于保存和分析带时间标签的数据,即时序数据,通常需要高速的数据写入并支持多维数据分析和数据可视化。
空间数据库:用于保存、处理和查询空间数据,例如点和多边形等的数据库系统。空间数据库通常提供空间索引,以便有效地检索一定距离内的对象等,以及计算对象之间的距离,对对象求交集或并集等。
图数据库:以图论为理论基础,使用图模型,数据的实体作为顶点(vertex),数据之间的关系作为边(edge)进行保存、读取、更新和删除等各种处理。
当今很多业务同时需要多种数据库,比如多数业务系统同时需要联机事务处理和联机分析处理,就像去年的CNCC的“分布式数据库HTAP的探索与实践”论坛提到的,这需要通过关系数据库+分析数据库+从前者到后者的数据抽取转换加载(ETL)来实现;再如,游戏业务不仅需要关系数据库进行会员管理、计费等,还需要保存和处理游戏本身的数据,而这类数据通常并不是结构化的,而是半结构化的,这就需要文档数据库等;此外,外卖业务同样需要关系数据库进行顾客、骑手的管理以及交易处理等,还需要分析判断顾客附近的棋手以及多个顾客之间的距离以提升骑手配送效率等,这就需要空间数据库。
毫无疑问,在一个业务系统中集成多种数据库,会使得业务系统更加复杂,对业务系统开发人员的技术栈提出了更高的要求,不仅显著增加了业务系统的开发难度和成本,也显著增加了业务系统的后期维护的难度和成本。在一个数据库中融合多种数据库的能力,则可以显著降低业务系统开发和运维的门槛和成本:
HTAP数据库:即融合了联机事务处理和联机分析处理的数据库,不仅简化业务系统,还能够实现实时、准实时的分析。
在关系数据库中融合文档数据库的功能:简化游戏系统的开发,降低运维成本。
在关系数据库中融合空间数据库的功能:简化外卖系统的开发,降低运维复杂度。
当前,多数的融合数据库还处在比较初级的阶段,比如部分HTAP数据库其实是在后台集成OLTP、OLAP和ETL三个系统,一定程度简化了用户的使用,但并没有降低用户的开发成本和业务成本,一些关系数据库的文档数据管理能力或空间数据管理能力还比较弱等等。作为数据库领域的未来重要趋势,融合数据库不仅着眼于多工作负载的统一,使联机事务处理和实时分析处理的深度融合成为现实,还将推动前瞻性的多租户架构发展以及多模态数据库的深度融合,以适应未来数据库的多样化及现代化需求。
尽管融合数据库的发展是一种趋势,但这不意味着各种专门的数据库就会消亡,就像今天人们普遍用智能手机欣赏音乐和视频,但电影院和专业的视频音响设备仍然有存在的价值,很多时候人们用智能手机玩游戏,但很多人更喜欢游戏机等等。欢迎大家来“下一代数据融合技术趋势”论坛与学术界、工业界的多位专家共同探讨多种数据库是否可以融合以及该如何融合。
时间 | 报告人 | 职务 | 报告题目 |
13:30- 13:45 | 阳振坤 | CCF会士、OceanBase首席科学家 | 开场致辞 |
13:45- 14:15 | 周傲英 | CCF会士、华东师范大学党委常委、副校长 | 数据库的发展目标是实现数据赋能 |
14:15- 14:45 | 丛高 | 南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任 | 用机器学习增强数据库系统 |
14:45- 15:15 | 彭智勇 | CCF会士、武汉大学大数据研究院副院长 | 多模态数据融合新技术探讨 |
15:15- 15:30 | 茶歇 | ||
15:30- 16:00 | 杨传辉 | OceanBase CTO | 单机分布式一体化的探索与实践 |
16:00- 16:30 | 蒋维杰 | 网商银行基础技术架构负责人 | 银行分布式数据库架构实践 |
16:30- 17:20 | panel
| 主持人:杨传辉 嘉宾:周傲英、丛高、彭智勇、蒋维杰、阳振坤 |
CNCC报名参会
论坛名称:【下一代数据融合技术趋势探讨】
举办时间:10月27日下午13:30-17:30
地点:沈阳皇朝万鑫酒店8层-10号会议室
论坛主席:阳振坤 CCF会士,OceanBase创始人兼首席科学家
共同主席:杨传辉 OceanBase CTO
想了解更多关于CNCC2023技术论坛信息,欢迎观看CCF公众号【CNCC专家谈】专题及CCF视频号【CNCC会客厅】直播,我们将陆续邀请本届CNCC技术论坛的论坛主席或重磅嘉宾,围绕今年CNCC涉及到的热门话题进行研讨交流,亲自带观众走进CNCC,敬请随时关注!