数据库基本概念。数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库是对数据存储、维护、获取进行统一管理管理和控制的系统,主要负责保证数据的安全性、完整性、多用户对数据的并发使用以及发生故障后的系统恢复。数据库和操作系统、中间件一起是构成计算机设备的三大基础软件。
国产数据库备受瞩目。2022年10月国家发改委做《关于数字经济发展情况的报告》提到,集中力量推进关键核心技术攻关,牢牢掌握数字经济发展自主权,加大集成电路、新型显示、关键软件、人工智能、大数据、云计算等重点领域核心技术创新力度。着力提升基础软硬件、核心电子元器件、关键基础材料和智能制造装备的供给水平,加快锻造长板、补齐短板。打造原创技术策源地,强化原创技术供给,建设新型创新主体,培育创新生态体系。数据库作为中国工业发展的35项“卡脖子”技术之一,长期以来被Oracle、IBM、微软等美国巨头占据。在中美贸易摩擦及云计算等新技术变革背景下,国产数据库备受瞩目。从武汉达梦等到阿里Oceanbase、华为GaussDB、柏睿等,纷纷布局国产数据库。从传统关系型数据库到NoSQL、再到NewSQL,从集中式数据库到分布式数据库,从OLTP到OLAP、再到HTAP,数据库技术持续迭代。
国内市场高速增长。当前,新一轮科技革命迅猛发展,数据规模高速增长、数据类型愈发丰富、数据应用快速深化,促使数据库产业再次进入创新周期中的混沌状态。全球范围内创新型数据库产品快速涌现,市场格局剧烈变革,我国数据库产业进入重大发展机遇期。据中国信通院统计,2020年,全球数据库市场规模达到671亿美元,中国数据库市场规模约为240.9亿元,占比约5.2%,预计到2025年,全球数据库市场规模将达到798亿美元,中国数据库市场总规模将达到688亿元,市场年复合增长率(CAGR)为23.4%,市场空间广阔。中国数据库市场呈高速增长,由多方面因素促成:1)政策利好,国家大力鼓励国产数据库厂商的发展;2)需求拉动,国产化和数字化建设带动需求的爆发增长;3)供给端多元厂商发力,传统、初创和跨界厂商厚积薄发,产品和技术经历了工程实践的打磨走向成熟;4)国内企业对基础软件的付费意愿和IT支出也在逐年提升,有利于市场的长期发展。
本土厂商逐步追赶上国际厂商。借助政策红利,国产厂商经过多年的技术研发和经验积累,市场份额在逐年提升。2000年左右成立的传统国产数据库厂商近年来开始发力,他们从购买源码、借助开源走向自主研发,实力不断增强,在党政军市场有着较好的表现,同时也开始向能源电力、运营商、交通等其他行业快速拓展。此外,初创厂商、云厂商、ICT厂商等近年来也开始发力数据库市场。国产厂商的创新能力和市场影响力正在逐步扩大,并且用户认可度得到了极大提升,既有基于自主研发的柏睿数据、星环科技、阿里云等企业,也有基于开源代码不断创新的瀚高软件等企业。相比之下,国外数据库厂商如甲骨文、微软、IBM等,虽然在OLTP的核心场景还拥有较高的市占率,但整体市场份额在被逐渐侵蚀。
国内数据库企业迎来新机遇。大数据时代多元、实时的分析场景,以及相关的数据处理产品逐步向以内存为介质的数据处理软件系统方向发展等多方面原因,为国内数据处理企业带来了机遇。在这一过程中,国内企业优势凸显,完全有可能打破原有生态,呈现百花齐放的市场格局。具体而言,从数据处理类型来看,大部分数据处理为针对事务研发的事务型处理(OLTP)型,如甲骨文、IBM DB2、南大通用GBase、瀚高HighGo DB等,其优势是方便、灵活、稳定性高,但在应对时延性能要求比较高的数据处理分析应用场景时需要较大的成本和运维投入。从数据库的架构和存储介质来看,目前不论国内还是国外的很多分布式数据仍然主要以磁盘为介质,在数据处理上存在IO性能瓶颈,数据需要从磁盘加载到内存中才能分析,因此处理性能(分钟级)仍不尽如人意,而以内存为介质的数据突破了IO瓶颈,并将数据处理性能提升至秒级,甚至毫秒级。我们认为,国内在内存分布式方面,柏睿RapidsDB产品线可以对标海外厂商如SAP HANA, SparkSQL, Oracle Exadata InMemory等。从数据库存储引擎方面来看,当前国内部分的数据处理相关产品基于开源、架构或数据库引擎,如PostgreSQL等开发完成,而柏睿数据、星环科技、武汉达梦等企业以完全自研为主。软硬件结合方面,SAP HANA等软硬件结合的一体机产品,不支持X86架构,因此使用成本较高,让很多企业难以投入建设,阻碍了数据处理技术的使用,这也是一个市场机遇所在。
数据库市场呈现出新的发展趋势。大数据时代,数据量不断爆炸式增长,数据存储结构也越来越灵活多样,日益变革的新兴业务需求催生数据库及应用系统的存在形式愈发丰富,这些变化均对数据库的各类能力不断提出挑战,推动数据库技术的不断演进,总结起来体现为三个方向:1)多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用 AI 实现管理自治,提升易用性、降低使用成本;2)充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能;3)利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全。4)信创带来新机遇,从2009年的去“IOE”,2014年的《关于应用安全可控信息技术加强银行网络安全和信息化建设的指导意见》,2018年的中美贸易摩擦,到2020年的新一批制裁名单公布,我们认为,在当前国际环境及云计算等新技术变革背景下国产数据库迎来全新机遇。
柏睿数据,国内首家拟写制定数据库国际标准的公司。柏睿数据是一家以数据库为核心的“Data+AI”数据智能基础软件公司。基于完全自主研发的新一代全内存分布式数据库产品体系和人工智能产品体系,构建数据智能平台,打造软硬一体化数据处理产品,为政府及国民产业数字化转型升级赋能。公司创建于2014年,立足北京,在硅谷、武汉、成都、杭州、西安设有分支机构,在上海、广州设有子公司。产学研共建:人民大学、矿业大学、复旦大学分别成立大数据统计分析实验室、城市公共危机管理与决策实验室、人工智能联合实验室。研发团队汇聚了原贝尔实验室、惠普实验室、Oracle、SUN、人民大学统计学院、矿业大学应急管理学院、复旦大学人工智能院等优秀专家,在大规模分布式并行处理、全内存高速计算、人工智能算法、边缘计算等核心数据智能领域,拥有多年丰富的研发经验,是一支完整的海量并行MPP数据仓库实现和部署团队。
超级独角兽Databricks:根据钛媒体APP百家号,Databricks成立于2013年的美国旧金山,由加州大学的几位教授和五位伯克利大学的博士生共同创立。目前Databricks最为核心的产品是基于Apache Spark、Delta
Lake、MLflow等开源组件构建出的Lakehouse功能。其中,数据湖表格式Delta Lake,侧重于为Apache
Spark和其他大数据引擎提供可伸缩的ACID事务,让用户可以基于HDFS和云存储构建数据湖;开发和维护AI生命周期管理开源平台MLflow,用于进行机器学习模型的部署和训练;数据分析工具Koalas,可让使用Pandas进行编程的数据科学家直接切换到Spark上,用于大型分布式集群应用。2017年,Databricks的估值已达5亿美元,但年收入却低得多,只有100万美元,这让其开始关注服务大型企业客户,以及在产品和销售策略上的调整。2018年,Databricks年收入首次达到1亿美元。而后在湖仓功能Lakehouse上线后,Databricks在2019年年收入达到2亿美元。到2021年,其年经常性收入为8亿美元,预期到2022年年底,Databricks的收入可能达到10亿美元。Databricks在全球已拥有约6000家客户,包括壳牌、CVS健康、再生元、T-Mobile、汇丰银行、康卡斯特等。同样,Databricks的融资脚步也非常快,最近一轮的公开融资是于2021年8月完成的16亿美金的H轮融资,融资总额超过36亿美元。惊人的融资速度和额度背后,还有良好的资本背书,除了A16z和老虎资本,还有非传统风投如Fidelity、T.Rowe Price、Baillie Gifford和Franklin
Templeton,以及微软、谷歌、亚马逊等科技公司,2021年,Databricks的估值已经达到380亿美元。按照Databricks在2021年8月融资估值380亿元,2021年经常性收入8亿美元算,其估值水平对应2021年PS为47.5倍。
风险提示:数据库需求及迭代不及预期,国产化云化趋势不及预期。
海通计算机团队
郑宏达/杨林/洪琳/于成龙/杨蒙/杨昊翊