252022.11

数据库行业深度研究:国产数据库百花齐放,崛起正当时

2022.11.25

1、什么是数据库

数据库是计算机系统的三大核心基础软件之一

数据库是计算机系统的三大核心基础软件之一。数据是数据库中存储的基本对象,包括数字、图像、音频等形式,在进行逐级抽象后存储在数据库中,通常由数据库管理系统 (DBMS) 来控制,DBMS充当数据库与其用户或程序之间的接口,允许用户检索、更新和管理信息的组织和优化方式。在现实中,数据、DBMS及关联应用一起被称为数据库系统,通常简称为数据库。数据库管理系统是“按照数据结构来组织、存储和管理数据的仓库”,是信息化时代、大数据时代中各行各业不可或缺的重要基础软件。

数据库发展史:数据库与信息技术的发展相互促进

关系型事务数据库诞生于1970年。1970年,IBM实验室的Edgar Frank Codd发布论文奠定关系型数据库的基石;Ingres原型在1974年诞生,为后续大量基于其源码开发的PostgreSQL、Sybase、Informix和Tandem等著名产品打下坚实基础。1977年,Oracle前身SDL成立,并于1978年发布Oracle第一个版本。1986年,美国国家标准局(ANSI)数据库委员会批准SQL作为数据库语言的美国标准并公布标准SQL文本。

数据库分类:不同类别数据库适用于不同场景

按数据结构,可以分为关系型数据库和非关系型数据库

按管理数据的结构,数据库可分为关系型数据库和非关系型数据库:

关系型数据库是指采用二维表格的关系模型来组织数据的数据库库系统。关系型数据库是由二维表及其之间的联系所组成的一个数据组织。直接使用通用的SQL语言,使得操作关系型数据库非常方便,关系型数据库遵循ACID规则。

非关系型数据库是用于非关系模型来组织数据的数据库系统,如键值、列、文档、图形等。非关系型数据库在1998年被首次提出,非关系数据库试图去摆脱传统关系数据库的约束限制,比如像数据的一致性、合并内存中的数据处理以及简化数据模型。NoSQL数据库用非结构化数据的来快速存储和检索,不使用为关系数据库提供支撑的结构化数据图表,这与关系型数据库结构化数据是不同的。NoSQL数据库放宽或取消了一些ACID的规则,以达到更好的性能和更大的灵活性。NoSQL数据库认为 ACID 属性的要求过于严格,大多数NoSQL数据库遵循BASE原则来代替。

按应用场景,可以分为OLAP、OLTP和HTAP三类

数据库按其应用场景可分为OLTP事务型数据库、OLAP分析型数据库、HTAP混合型数据库三类:

OLTP事务型数据库主要面向事务类场景,实时性要求高,数据量通常不大,面向一线业务人员。OLTP(On-Line TransactionProcessing,联机事务处理),主要面向事务型应用的场景,OLTP系统主要使用关系模型,保证强一致性,保证事务的ACID特性,面向一线业务人员,支持多并发、实时、快速地增删查改,例如银行交易、零售电商、车票预订等;

OLAP分析型数据库主要面向分析类场景,历史数据为主,数据量大,面向分析与管理人员。OLAP(On-Line Analytical Processing,联机分析处理),主要面向分析型应用的场景。OLAP系统可以高速多维分析来自数据仓库、数据集市或者数据湖的数据,可使用关系型或者非关系型的数据库,主要面向分析师和管理者,支持对历史数据的复杂分析操作,从而赋能企业商业智能决策。

按系统架构,可以分为集中式与分布式数据库

集中式数据库:是一种仅在单个位置存储、定位和维护的数据库。这种类型的数据库是从该位置本身修改和管理的。因此,该位置主要是任何数据库系统或集中式计算机系统。通过互联网连接(LAN、WAN 等)访问集中位置。该集中式数据库主要供机构或组织使用。

分布式数据库:由多个相互连接并分布在不同物理位置的数据库组成。因此,分布式数据库可以独立于其他物理位置管理存储在各种物理位置的数据,不同物理位置的数据库之间的通信是由计算机网络完成的。

按部署模式,可以分为本地数据库与云数据库

云数据库主要可以分为云厂商的传统数据库和云原生数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。现阶段云数据库主要包括两种:一种是托管在云厂商上的“传统”数据库,例如阿里云、腾讯云上的MySQL、PostgreSQL、MongoDB、Redis等;一种是基于云环境的云原生数据库,例如AWS的Aurora、阿里云的Lindorm和PolarDB等。

2、什么是数据平台

数据平台发展史:从BI到AI,数据时代带动底层架构持续迭代

数据时代带动数据平台底层架构从数据库、数据仓库、数据湖到湖仓一体。数据平台主要是指数据分析平台,其分析内部和外部其它系统生成的各种原始数据,对这些数据进行各种分析挖掘以生成衍生数据,从而支持企业进行数据驱动的决策。整个数据平台的发展来看,就是随着企业信息化和数字化的逐渐推进,从数据库,数据仓库,数据湖到数据湖仓逐渐演进的。

数据平台分类:从数据仓库、数据湖到湖仓一体

数据仓库(Data Warehouse):自上世纪80年代末出现以来,伴随MPP架构的出现,也使得系统能够处理更大规模的数据量。但是随着大量的非结构化、半结构化数据产生,数据仓库劣势显现出来;

数据湖(Data Lake):数据湖自2010年末出现,可以存储各类格式的原始数据存储库,但是企业对数据访问灵活性、高性能的需求从未降低,因此多系统共存是企业常态,如一个数据湖,加上多个数据仓库等,架构复杂性也为运维带来困难;

湖仓一体(Lakehouse):湖仓一体构自2020年出现,其建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。

3、数据库的市场竞争格局

数据库市场空间广阔

国内数据库市场增速较全球而言较快。根据信通院的统计数据,全球数据库的市场规模在2020年为671亿美元,到2025年有望达到798亿美元,年均复合增速3.5%;而相比之下,国内的数据库市场相对较小,有望从2021年的309.35亿元增长到2025年的688.02亿美元,年均复合增速约23.4%,增速远高于全球数据库市场增速。

国内数据库市场占全球市场较小,未来发展空间较大。目前根据信通院的统计数据,2020年国内的数据库规模为240.9亿元,占全球数据库市场规模的比例为5.2%,未来到2025年的时候,国内的数据库规模将占到全球数据库规模的12.5%(这一数据基本与中国IT总支出占全球IT总支出的比例较为接近)。

国内数据库市场的主要玩家

国内数据库市场呈现百花齐放态势。目前国内的数据库市场主要分为国内厂商和海外厂商两大类,具体来说:1)国内数据库厂商,主要包括了传统数据库厂商、初创厂商、云厂商以及跨界厂商,传统数据库厂商成立时间较早,初创厂商则大多数是由中大型厂商的核心员工出来创办的居多,云厂商则利用自身云计算的优势加入行业,跨界厂商则主要依旧自身行业优势参与研发数据库;

2)海外数据库厂商,主要分为开源和商业版,其中在商业数据库中,传统的Oracle、IBM等厂商依旧占据较大优势,新的云厂商借助自身云优势也获得较多市场份额,开源数据库中主要以非关系型数据库为主,如MongoDB、Redis、MySQL、PostgreSQL等发展势头良好。

国内数据库市场有望走向集中

国产数据库厂商人员相比海外巨头较少。目前国产数据库厂商总体人员数量较少,根据信通院的统计,目前我国对应的国产数据库厂商约有80家,其中大多数的人员都在100人以内,其中人员在21-50人规模的公司占比最高,人员在800人以上的仅有3家(信通院数据截止到21年6月)。相比之下,海外的数据库巨头人员数量较高,snowflake有3992人,MongoDB有3544人,Cloudera有2728人,Oracle有143000人,虽然这些云数据库公司的人员中营销人员占比较高,但总体的研发和技术支持人员也远高于国内数据库厂商。

4、数据库的发展趋势

趋势一:国产化

国产数据库的企业主要成立于2000年和2015年前后。根据中国信通院的统计(截止到2021年6月),我国的数据库公司主要成立时间分别集中在2000年和2014-2017年左右,一方面是因为2000年前后是我国数据库发展的萌芽阶段,另一方面在2014-2017年之间,我国由于互联网时代的到来数据量激增以及去IOE趋势盛行,所以成立的数据库国产厂商较多。

趋势二:开源和商业数据库并存

全球市场中开源数据库快速增长,国内排名靠前的数据库大多为开源数据库。目前,在全球数据库市场中,开源数据库相比于商业数据库而言进展快速,根据DB-Engines的统计,在2021年的时候开源数据库的得分就已经超过了商业数据库的得分,呈现较强的发展趋势。

趋势三:数据库云化

云计算改变数据库市场格局,云数据库崛起。根据Gartner对近十年的全球数据库市场的份额追踪,最为显著的变化是云计算厂商改变了数据库的市场格局。在2021年,全球数据库市场的前五名为Oracle、IBM、Microsoft、SAP和Teradata,而到了2021年全球市场的前五名为Microsoft、Amazon、Oracle、Google和IBM。Gartner每年都会做魔力象限,2013年数据库的领导者象限主要被传统巨头占据(Oracle、微软、IBM、SAP),到了2020年AWS、谷歌、微软等云厂商也进入领导者象限。微软凭借SQLServer以及Azure云数据库的快速成长实现了对Oracle的反超,这与海外市场云基础设施的发展有着密切联系。

趋势四:多模数据库

全球数据量快速增长,非机构化数据占比较高。根据IDC的统计数据,目前全球的数据量呈现快速增长态势,2020年数据量达到60ZB,2021年达到70ZB,而到了2025年基本上会进一步上升到175ZB。在一项IDC面向企业的数据调查中,企业中的数据有80%是非结构化数据,所以对应的数据存储需求就越来越多样化,也延伸出了很多非关系型数据库的需求,比如键值数据库、宽表数据库、文档数据库、图数据库、内存数据库、时序数据库等。