172022.06

数据库行业深度复盘与展望:筚路蓝缕,星火燎原

2022.06.17



1 数据库:信息系统承上启下的关键环节


1.1 数据库是信息化核心环节


数据库作为信息化的核心环节,是底层硬件基础资源与上层应用之间的重要支撑。根据Statista、IDC与Seagate的统计调研, 全球数据量将在2035年达到2142ZB,然而企业运营中的数据仅有32%能被存储利用,海量数据的涌现和分析能力需求提升, 数据库存储量将严重不足,未来对数据库需求迫切性有望显著提升:



从信息产业链角度分析:数据库作为信息系统承上启下的关键环节,向下调用硬件基础资源,向上为应用软件提供重要数 据支撑,是信息化中间的核心环节; 从国家政策角度分析:数字经济作为国家“十四五”建设的重中之重,数据作为新型关键生产要素,是推动数字经济发展 的关键一环,同时,国内数据库长期由海外厂商主导,在国内数据库行业快速发展下,国产数据库将迎来重要发展机遇。



广义的数据库通常指数据库系统,其包含数据库与数据库管理系统两部分,向上通过数据库管理系统支撑应用引擎,向 下以数据库承接文本、图像、声音等数据源,调动计算、网络、存储等基础资源。

 1. 数据库(Database,DB)是按照一定的逻辑结构组织、存储、管理数据的大容量电子文件柜; 

2. 数据库管理系统(Database Management System,DBMS)是对数据库进行统一管理和控制的大型软件,主要由内核组 件集和驱动组件构成,其中内核组件集按照功能模块划分为管理组件、存储组件、计算组件和网络组件。



1.2 七大维度全面梳理数据库发展历程


1.2.1 从七大维度对数据库发展历程进行详细梳理



回顾数据库70年发展历程,分布式、云计算、人工智能等创新技术和基础设施的发展陆续为演化注入新活力。本章将从数据 模型逻辑、技术架构、需求功能、部署方式、存储介质、商业模式、数据库治理模式等七大维度对数据库发展脉络进行详细 阐述,理清行业演化逻辑与发展趋势。



1.2.2 数据库发展特点:顺应市场需求,行业持续进化


顺应市场需求变化,数据库行业正持续进化: 随着大数据时代的到来,数据规模和逻辑关系复杂度进一步提升,其中非结构化数据的激增使得非关系型数据库迅速发展; 随着5G下的云计算、物联网等快速发展,对于数据分析的需求、响应速度、存储容量扩展、算力提升等均提出更高的要求, 使得分布式数据库得到快速发展; 信息化水平快速提升下,企业业务规模快速扩张,数据库的运维和管理成为新的难题,数据库云部署模式与借助AI自治成为 重要发展方向。



1.3 发展特点:顺应市场需求,行业持续进化


1.3.1 数据模型分类演化:NewSQL、多模引领新时代


数据模型的演化本质由底层数据规模、逻辑关系、类型等驱动,其路径是:层次->网状->关系->关系、非关系并行。在当前关系、非关系并行时代,新


为了应对数据的海量增长并追求更低的扩容成本,数据库由单机、集中式向 分布式架构快速发展。随着信息化水平快速提升,对数据库的存储、读写并 发、扩容要求更高,集中式架构的“Scale Up”纵向扩容机制面临硬件性能 瓶颈,因此“Scale Out”式的横向扩容分布式架构成为新趋势,通过网络将 物理分散的数据库单元连接为逻辑上的统一整体。从集中式到分布式的演进 降低了对硬件性能的要求,使得企业数据库拓展成本大幅降低。


型NewSQL与多模数据库快速发展。传统SQL受限于其拓展性,在大数据发展下逐渐面临瓶颈, 而NewSQL提供了与NoSQL相同的可扩展性,而且仍基于关系模型,保留了极其成熟的SQL作为查询语言,从而保证了数据的强一 致性;同时,基于分布式架构,对接多种数据模型引擎,避免搭建多种类数据库的多模数据库快速发展。(报告来源:未来智库)



1.3.2 技术架构分类演化


分布式架构逐渐成熟


分布式架构逐步由分库分表中间件向原生分布式发展,以应对不同应用场景。 分库分表中间件早期主要以电商、社交起家的互联网公司自研为主,但由于其 对复杂查询事务的支持较差,难以应对业务瞬时高峰需求,因此更加便捷、可 靠的原生分布式数据库应运而生。按照具体实现方式可以分为两类:以 Greenplum为代表的主流MPP架构和以Cassandra、HBase为代表的分区分片架构。



AI技术赋能分布式架构



无共享架构凭借实现高可用、带宽要求低、易横向扩展和远程部署四大优势,逐步成为分布式主流架构。分布式架构由共享磁盘、 共享内存架构,逐步向纯无共享架构发展,在无共享架构中,每个处理器私有内存和磁盘空间,利用网络通信,“Scale Out” 式横向增加处理器和相应的内存、磁盘,从而避免事务对内存访问和网络带宽的竞争,提高处理性能。国产方面,无共享分布式 架构已经趋于成熟,如PingCAP的TiDB、华为的GaussDB、蚂蚁的Oceanbase、达梦的达梦+、阿里云的PolarDB、腾讯云TDSQL、南 大通用的GBase、人大金仓的KingBase、中兴通讯的Golden DB等分布式数据库均为MPP无共享架构。



2 国内数据库市场发展趋势分析


2.1 行业规模与下游需求结构


数据库作为信息化核心环节,在国内大力发展数字经济建设的大背景下,数据库行业规模将保持快速增长。根据信通 院,2020年中国数据库市场规模为35亿美元(约合240.9亿元人民币),占全球总规模的5.2%。预计到2025年,全球 数据库市场规模将达到798亿美元。中国的IT总支出将占全球12.3%。预计中国数据库市场在全球的占比将在2025年接 近中国IT总支出在全球的占比,市场总规模将达到688亿元,CAGR为23.4%。



金融、电信、政务、制造、互联网五个行业为数据库行业下游主要需求领域,大数据应用快速发展为数据库提供增长 动力。根据信通院统计,其合计市场份额高达80%以上,2020年整体采购额超过192亿元。此外,根据赛迪顾问,2020 年国内大数据市场结构数据,其中互联网、政府、金融、电信、工业位列前五,占比分别为48%、14%、12%、9%、5%, 合计约88%,大数据应用与数据库需求结构基本吻合,预计随着大数据应用领域拓展与规模持续增长,将为数据库行 业规模增长提供充足动力。




2.2 强化数据库建设在“十四五”规划中被多次提及



去年各领域“十四五”规划陆续发布,数据库建设与应用在信息技术、金融、交通物流、农业等众多领域被多次提及,其中数 据库标准化攻关的重要性首次被提升到前所未有的高度。我们认为,随着数据库顶层设计不断加码,十四五期间,国产数据库 研发将步入快车道,国产数据库竞争实力将显著增强,行业有望进入加速发展期。



2.3 数据库市场增量需求



基于对数据库发展趋势与国家政策导向的分析,我们认为,未来数据库市场增量需求主要来自于以下三方面:1. 国产化进程逐步加速;2. 传统集中式数据库向分布式架构升级;3. 非关系型数据库应用场景不断丰富,得到快速发展。



2.4 非关系型数据库应用场景不断丰富,快速发展



2.4.1 数据库国产化浪潮不可阻挡



国产数据库能力不断提升,逐步抢占海外厂商优势领域份额。以Oracle、Microsoft、SAP、IBM为代表的海外厂商,一直以 来,因其产品具有更好的性能、稳定性、安全性、与海外ERP、CRM等更好地兼容性等优势,在企业核心OLTP业务场景一直 占据主导地位。近些年,随着国产数据库产品功能、性能水平不断增强,其产品水平已经逐步趋近于海外厂商,根据IDC, 在传统关系型数据库领域,Oracle、Microsoft、SAP、IBM合计份额从2019年66.8%下降至2021H1的48.5%,首次降至半数以 下,显示出国产数据库技术正趋于成熟,在海外厂商为主导的核心OLTP应用场景,已经逐步具备运营能力,国产化进程持 续加速。



2.4.2 集中式数据库向分布式升级



随着数据类型、规模的指数级增长,传统的终端计算场景已经难以应对 数据存储处理的工作量与复杂度。云计算通过存算分离、资源弹性动态 分配、边缘节点计算打破了传统计算场景的瓶颈,实现了当前数据处理 的需求,云计算场景的需求推动了分布式数据库的应用发展: 1. 通过资源池化管理实现物理或逻辑层的相互隔离与资源的自由伸缩, 具备弹性扩张、HTAP事务能力、多租户管理能力、高可用性,与云计算 场景需求相匹配。 2. 对多种访问接口和数据类型的兼容,可以实现对存储与不同物理服 务器、不同格式的数据进行结构与算法的优化,突破服务器类型的限制, 为上层不同类型的应用提供多模式的数据服务。



分布式架构凭借在经济性、安全自主、灵活性、可伸缩性等方面的优势,逐步实现对集中式架构替代。目前,互联网、金融、电信 等行业分布式升级进展较快,以金融和电信行业为例,其核心业务数据类型均为关系型数据库,此类集中式数据库所面临的业务体 量将呈现爆发性增长。由于单一硬件能力增长有限,所以无法依靠纵向升级硬件扩展存量数据库能力上限。而分布式数据库采用多 种模式实现数据的分散存储,将压力分散到不同服务器上,并不断通过增加存储或计算节点来实现弹性升级,克服了集中式数据库 的诸多缺点,业界已有分布式数据库在股份制银行、城商行、二三线城市运营商等实现了核心业务系统的改造落地,同时,去年12 月,腾讯分布式数据库TDSQL落地东吴证券核心交易系统,也标志着分布式数据库在券商核心系统领域取得突破。



2.4.3 非关系型数据库快速发展



我国非关系型数据库快速发展,正逐步进入世界前列。我国非关系型数据库主要以基于开源数据库如Redis、InfluxDB、 CouchDB等产品进行二次开发为主,根据DB-Engines 2022年2月排名,国内浙江智臾和阿里云TSDB,分别位列时序数据库第11、 21位;图数据库方面,欧若数网Nebula Graph、百度智能云开源产品HugeGraph、华为云GraphBase分别位列15、26、32位,显 示出国产NoSQL数据库正逐步趋近于世界前列。随着工业互联网、互联网创新型业务、车联网 等应用的快速发展,非关系型数据库应用将加 速落地。