AI工业化时代,作为国产数据库的标杆玩家,源自蚂蚁的OceanBase站在了新的起点均化库 。
5月17日,在OceanBase第三届开发者大会上,OceanBase对外详细诠释了其最新升级的“DATA x AI”战略,并发布面向AI的应用产品PowerRAG均化库 。
作为OceanBase AI战略落地的“一号位”,OceanBase CTO杨传辉表示,OceanBase正致力于构建Data×AI能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进均化库 。
今年4月27日,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“DATA×AI”核心能力,建设AI时代的数据底座均化库 。
在OceanBase看来,AI时代,传统数据库已很难满足全行业的需求均化库 。
一方面,AI大模型的爆发,会让数据以及数据的处理需求,爆发式增长,比如AI大模型核心是对海量数据进行训练与推理,且会生成海量数据均化库 。IDC报告指出,受生成式AI等技术驱动,预计2028年全球新生成数据量规模将达到393.9ZB。数据量级的指数级增长,对数据库的架构、性能、成本等均提出新的需求。另一方面,AI时代,数据的类型更多从结构化向非结构化转变,源自真实世界的图像、视频等非结构化数据更多,传统的关系型数据库已很难满足。
在内部信中,杨冰表示,OceanBase面向未来思考,AI正在重塑一切,谁能更好地解决DATA和AI的融合,实现“DATA×AI”,谁就能成为AI时代的数据底座均化库 。
在打造AI时代的数据库上,OceanBase有先天优势均化库 。作为一家生于AI云时代的数据库厂商,OceanBase一直将“分布式”作为自身的信仰,杨传辉很早就提出“单机分布式一体化是数据库的未来”的观点。当年,传统数据库很难服务于蚂蚁爆发式增长的数据处理需求,OceanBase应运而生,从无到有,坚持100%根自研,攻克了分布式数据库稳定性、高并发、可扩展、实时分析和多云等难题,为市场打造了一款高质量的一体化分布式数据库产品。
如今,随着DeepSeek的爆发,大模型应用成本指数级下降,AI加速走向千行百业实现规模化落地均化库 。面对企业在AI时代悄然变化的需求,OceanBase已有一定的DATA x AI能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP一体化实现混合事务和实时分析处理。
不过,在杨传辉看来,“大模型落地产生价值的核心,在于数据与模型的一体化融合,这也是OceanBase提出的构建Data×AI能力的关键均化库 。”因此,OceanBase跳脱出传统本地化数据库的逻辑,基于一体化数据库的现有优势,加速向一个一体化数据底座演进,可通过一套引擎同时支持TP/AP/AI混合负载,支持向量数据库,实现SQL与AI的混合检索。
在发布会上,OceanBase发布了首个面向AI的应用产品PowerRAG,打通AI应用开发数据层、平台层、接口层与应用层的全流程,可帮用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发均化库 。
而在支持AI应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase也在持续探索,进一步加强SQL+AI能力,在发布会上,OceanBase还现场“跑分”,基于基准测试工具VectorDBBench,采用Performamce768D1M测试数据集跑分测试,结果显示,其性能超越业界三款领先的开源向量数据库均化库 。
此外,OceanBase引入BQ量化算法(HNSW+BQ),可实现内存成本较引入前降低 95%;引入针对JSON半结构化数据的压缩能力,在TPC-H 10G数据集上,JSON压缩比可达 MongoDB 的3倍;支持面向多种数据模型的混合检索能力均化库 。
OceanBase的“DATA×AI”已被多个客户应用在真实生产场景中,比如联通软研院打造了服务于运营商的AI助手,in银泰商业打造了零售业智能问数平台均化库 。
前些年,在国产替代“信创”浪潮和企业数字化进程中,源自蚂蚁,经过双11等海量真实场景锤炼的OceanBase,基于原生分布式架构以及开源模式,成功崛起成为国产数据库的标杆平台均化库 。如今,在AI工业化大生产阶段,作为云原生数据库的OceanBase,不论是应对更大规模的数据处理,还是应对AI新场景下的全新AI数据处理需求,都将发挥出自身优势,在数据产业扮演更重要的角。