面 ,大模型的用数之道规划落地背企业级AI

最后更新 : 2025-07-04 06:12:05

文|白   鸽 。数 。企业

生成式AI对国际的划落雕琢  ,在数据上表现得酣畅淋漓 。地背的用

跟着AI大模型年代的面大模型到来,非结构化数据(图片、数音视频等)比重日益添加 。企业IDC数据显现  ,划落2025年非结构化数据现已占有整个已知数据的地背的用90%以上。

为了让AI更好地辨认和了解这些数据,面大模型一场环绕数据的数“向量化”革新正在悄然打开  。

以最重要的企业查找场景为例 ,Data x AI年代企业的划落需求正在发生改动。曩昔,地背的用查找只需求做好全文检索 、面大模型结构化查找分词等“要害词查找” ,但现在的用户需求现已变成了向量查找 、语义查找 、多模态混合查找等等 ,“猜你要搜”“图片查找”都成了常态 。

举个最简略的比如 ,之前咱们手机相册找相片 ,不能用要害词查找,就算用户体会最好的苹果手机 ,也最多只能按“人脸辨认”的人物分类 。但现在咱们都能够用要害词来寻觅相片 ,本质上 ,便是图片在数据层面,做到了“向量化” 。

这个看似纤细的改动 ,却是在数据层面满意掀起一场巨浪的蝴蝶效应。

OceanBase(以下简称OB) CTO杨传辉以为  ,AI对数据库的改动正在呈现在两个方面 :

Bring Data to Al :经过数据提高精确度 ,让大模型愈加精确,下降推理本钱;

Bring Al to Data:将AI集成到数据库,完结SOL+AI混合核算,发生化学反应 。

数据不只影响着大模型功用 ,AI也在让数据库本身完结晋级 。而数据库的AI才干晋级 ,也加快推进在RAG等场景中的运用落地 。

这场双向改动的化学反应,让未来的数据库,成为一个一体化的智能数据底座。

因而 ,本年5月,OB正式宣告面向AI年代的到来 ,要从一体化数据库转型成为“一体化 AI 数据底座” 。而这次革新中,OB的云上数据库OB Cloud成为前锋军 。

究竟 ,云天然便是适配AI ,由于AI这种海量非结构化为主的数据 ,便是需求一个高传输、低延时的反应,云上的分布式数据库更合适 。

一个企业的AI转型,从查找增强开端。

“不知道怎样用AI,就先用常识库做一个Agent帮手 。” 。

而做Agent帮手,就离不开离常识库最近的RAG(查找增强) 。所以近两年 ,RAG成了企业级AI落地开端的当地 。

建立26年的零售科技公司伯俊科技,做AI转型时 ,第一个阶段建立的便是用RAG做的AI东西——AI通识帮手 。

为了不让这个AI帮手“上线即搁置”,伯俊科技中台事业部总监李昊说到,他们调研了整个公司,终究针对四大事务场景来打开功用设计 。

一是类似于传统企业常识库问答,首要面向出售端 ,依据过往企业堆集的数据,协助出售了解公司的规章准则、产品的过往记载以及客户前史状况等;

二是针对后端人员,伯俊科技现已沉积了包含电商、线下零售 、B2B等整个产品常识系统,依据AI小帮手的运用 ,能够让后端人员快速了解对应的常识系统;

三是针对技能才干 ,伯俊科技则依据现已沉积的一切不同产品线之间功用差异点 ,以及其聚集的客户画像等,能够便利后端同学快速把握这些中心信息 ,相同关于交给侧的作业人员  ,也能够快速上手,为其提高功率;

四则是针对运维同学 ,伯俊科技经过将客户过往的问题 ,包含进程中交流的QA ,悉数以常识库的方法反哺给运维同学,极大的提高了客户运维的呼应时效性 ,提高客服服务体会。

除此之外 ,企业也会跟着数据才干的深化 ,渐渐处理更多事务问题 。“伯俊科技经过运用OB Cloud来处理了企业常识库沉积的问题 ,未来它还会将数据库的才干 ,逐步延伸至企业文件导购 、AI配货才干等企业中心事务上 。” 。

事实上,在企业场景中,想要建立一个RAG场景,至少需求构建两个层面 :

一个是底层的数据库渠道 ,包含向量数据库  、文本数据库等,假如往杂乱里说 ,或许还需求地舆联络数据库、联络型数据库等支撑 ,“这就会导致整个数据底座十分杂乱,团队的运维本钱也会十分高 。”OB公有云高档产品专家冯礼说道 。

别的 ,在数据底座之上,还需求一个开发渠道,将这些流程串联起来 ,“许多企业会挑选开源产品,或许说是依据LangChain和LlamaIndex开源结构来自己创立 ,这傍边会有很多的集成、调试、二次开发的作业。” 。

这也就意味着,虽然企业能够经过开源大模型、向量数据库与Agent渠道建立RAG系统 ,但实践开发进程中,仍面对多重应战,涉及到多类型文档的智能辨认与切分 、优化向量数据库索引战略以提高检索功率,以及调试大言语模型提示词以保证生成精确性等。

而OB Cloud之所以能够快速帮伯俊科技沉积其常识库产品系统,则首要源于其将上述流程一致封装打包至一个产品处理方案中 ,即OceanBase PowerRAG服务 。

OceanBase PowerRAG 服务集成了常见的常识库 、文本检索 、常识检索等所需求的一切模块化处理方案 ,构成一站式开箱即用的AI处理方案  ,协助开发者精简开发流程,完结开箱即用。

PowerRAG 。的才干远远不止在文档查找上 ,而是能对文档的阶段结构/表格/图片采纳不同的解析战略,这样才干增强其文档解析才干 ,构建 AI 可了解的常识源。

依据这些才干,OceanBase PowerRAG现已用在多个企业实在场景中 。其间,企业问数场景是比RAG更难做的场景 ,首要分为三个阶段  ,包含自然言语处理,NL2SQL  ,SQL4DATA等 。

“OB Cloud现在首要仍是在处理自然言语 ,将其变成RAG化 、向量化的这个阶段,未来咱们也会把后边两个阶段的才干变成产品,供给给客户运用。”OB公有云事业部处理方案总监戴涛说道。

在智能问数场景中 ,互联网百货公司in银泰商业打造了智能问数渠道,完结事务数据实时溯源与查询解读  ,支撑门店成绩深度归因剖析的智能问诊;一起构建了企业内部常识库,职工可经过自然言语交互快速查询公司内部准则文档、服务条款等 ,大幅提高办理功率。

能够看到,开箱即用RAG产品现已能做不少作业,但它的完结离不开一个更根底的数据底座。

向量才干,构建AI年代的数据底座。

企业内部沉积的很多数据,想要发生价值 ,需求先对数据进行处理 。

“此前咱们的事务和数据不能够打通,存在很多结构化和非结构化的数据,需求花费更多精力在怎样处理这些数据上 ,数据处理后也很难再花精力赋能事务 。”李昊说道。

事实上 ,传统数据库更拿手处理结构化数据 ,“非结构化数据  ,其实是数据库一向不拿手处理的当地 。”OB资深技能专家张易说道。

因而 ,想要将非结构化数据转化为大模型能够看懂的数据 ,向量才干则成为了要害。

向量才干首要表现在两个方面:

一个是对非结构化数据的处理上,首要经过向量嵌入(Embedding) 技能 ,依据深度学习神经网络,提取非结构化数据里的内容和语义 ,把图片 、视频等变成特征向量。该技能能够将原始数据从高维度空间映射到低维度空间 ,将具有丰厚特征的多模态数据转换为多维向量数据。

“而依据这种嵌入模型的方法,将非结构化数据转化为一个数据库能够处理的半结构化数据 ,能够使数据库更高效。”张易说道。

别的一个中心则在于向量检索才干。跟着数据量的不断激增,传统的依据要害字的检索方法,现已无法满意用户关于检索精度和速度的需求。因而  ,向量检索技能应运而生 。

具体来说 ,向量检索便是在将非结构化数据转化为向量之后,经过运用相似性衡量方法来比较它们之间的相似性,然后捕捉数据的深层次语义信息,然后供给更为精确和高效的检索成果 。

简略举例,如用户想要查询北京有什么好吃的,向量检索就会主动定位与北京 、美食、地舆位置、店面等一切与其有相关性的要害词 ,而不是只给出北京、美食相关内容 。

两者相结合的向量才干 ,构成了数据库的底座才干 。但AI年代的数据库 ,却又不只局限于向量。

“一般来说 ,传统的数据库大多都是依据MySQL构建,但关于面向企业出产的数据库,要的不只仅是一个向量才干  ,而是一个完好的数据库技能栈才干,包含齐备的企业级才干 。”张易说道  。

因而,依据向量才干,OB Cloud现已构建了AI数据底座的5大中心才干 ,用张易总结的话来说,便是“多 、快 、好、省、创”。

多,是指OB Cloud的一体化架构可支撑千万 、亿级 、十亿+不同场景向量处理 ,VSAG向量索引算法具有TOP吞吐量 ,在相同召回率0.9下根底功用比照中 ,OB Cloud功用好于milvus ,PG-Vector和ES。

快,首要是面向开发运维工程 。

传统向量数据库是依据API来做开发,但这其间面对着需求跨渠道 ,不断重复开发一个新客户端,以及API不能够形象表达一些查询语义等问题。

因而 ,OB Cloud的一体化架构系统,能够原生支撑MySQL的协议的客户端 ,并经过MySQL协议能够映射到简直一切的多言语客户端,针对Python或许Java的客户来说,还供给专用的客户端 。

好,首要涉及到混合检索和交融查询才干。

在处理海量增加数据问题中 ,OBCloud引进了HNSW(依据图的近似最近邻查找算法)+IVF(倒排文件索引方法)混合算法 ,经过将增量和存量拆分 ,并将增量索引与全量索引同步的方法,处理高速增加数据摄入问题。

而想要更快地取得精确的数据 ,TP和向量的结合十分遍及 。“但现在职业中对先算标量仍是先算向量一向存在争辩,首要是会面对丢数据的危险。”张易说道 ,“但经过将向量算法库跟数据库做深度集成,用户根本就不需求考虑这个问题了。”。

别的,想要全体数据的召回率更高,现阶段首要是向量+全文索引的方法 ,但张易表明,未来或许是向量、全文索引再加上稀少向量 ,会让整个召回率更高,而这也是后续OB Cloud研制方向之一。

当然  ,除向量外,OB Cloud具有完好的数据库才干 ,包含事务 、数据阻隔  、企业级安全、备份康复、高可用等 ,以及完好的东西链系统,包含评价改造、实时搬迁、开发办理、运维办理 、容灾仿制、安全办理 、全生命周期 、确诊自治等。

省,则首要是下降海量非结构化数据带来的存储本钱和功用本钱 。究竟,于企业来说 ,假如发掘数据的本钱要远远大于数据的价值的话,那么这些数据的价值也就一文不值 。

“一旦把很多非结构化数据进行向量化  ,会涉及到存储本钱的极大提高 ,一起很多向量查询也是一个实时行为,企业需求统筹海量数据的存储本钱和实时查询的功用。”戴涛说道。

一方面经过同享存储方式,OB Cloud的存储本钱较传统的Shared Nothing架构可下降 1/2 到 1/10。另一方面,近期OB Cloud还引进了RabitQ技能 ,来处理传统HNSW算法占用内存较多的问题。

最为重要的一点在于 ,比较于其他开源数据库,OB Cloud的向量才干 ,包含向量算法都是悉数自研  。

“业界比较多的向量数据库底层向量算法是依据开源数据库 ,其关于向量算法的掌控和立异力都没有方法到达依据自研所带来的底气和立异。”张易说道。

依据跑分评测,现在全体OB Cloud的向量功用已到达干流开源数据库的水平  。

除上述说到的RAG产品事例之外  ,OB Cloud还有更大的事例在Agent范畴。“OBCloud的一体化架构技能方法十分合适企业里边运用 ,协助其构建AI底座  ,供给混合查询 、标量 、向量一体化查询 ,多模态交互等才干,协助企业更好地处理不同的数据 。”戴涛说道 。

现在,OB Cloud向量才干现已深化电商零售 、互联网服务 、物流运送、教育、企业服务等很多职业范畴,并在头部企业和立异渠道的各类 AI 运用场景下继续验证产品价值  。

至此,深度融入向量才干 ,但又超出向量数据库的OB  ,现已构建了一个面向AI年代的一体化数据智能底座。

一体化智能数据底座,让AI从概念走向运用。

对企业AI规模化的落地,OB主张分三步走:

首要  ,是先从单场景切入,构建企业0-1的AI才干 。比如从企业常识库小切断切入 ,便于企业挑选一些价值链比较照较高,且赢利比较短的场景。

其次,当0-1尝鲜之后 ,则能够进行渐进式扩展,“咱们会主张企业从下而上,原因在于,假如企业里事务团队不明白AI,会提出十分大而全的AI需求 ,就很难将事务IT化和AI化 。”戴涛说道。

因而,这一阶段需求拉上事务团队,构建类似于Design Thinking(依据对用户需求了解所做的产品设计方法论)的作业坊 ,协助事务团队来找到相关的ID场景,在这一场景完结小规模构建后,把相关的需求返给团队之后,构建出终究的AI运用,完结企业AI落地的1-10建造。

终究 ,企业依据各个涣散的AI事务场景 ,会构成一个事务中台 。这个渠道需求包含Agent 、RAG一体化数据库等才干 ,供给给更多的事务人员或轻IT人员,完结短平快的AI立异开发。

“这便是咱们一向说要构建10-100的阶段 ,完结整个事务和IT的双轮驱动,终究从AI使能转变为AI原生 。”戴涛说道 。

纵观伯俊科技在AI年代的转型 ,能够很明显看到其全体AI事务落地,是从单一场景逐步扩展至事务中台,从0到1,到10 ,再到100的进程 。

在AI东西阶段  ,伯俊科技首要做了AI通识小帮手及AI数据实时剖析、互动等才干,针对单一的事务场景 ,去做AI的赋能。而在这一阶段之后,伯俊科技开端将AI才干交融到本身中心事务场景中 ,其间一个要害抓手,便是AI导购数字职工 。

依据现有全国门店缺少有专业才干导购员等痛点,伯俊科技开发了会员成交大模型  ,该大模型交融了门店在中心产品库 、会员画像及导购与客户交流话术语料等数据 ,并终究以AI智能导购员的方法,在线下门店场景中落地运用。

未来,跟着越来越多数字职工在更多中心场景的落地 ,企业也势必会面对着多智能体协同办理的问题 。因而 ,“未来不管是企业有多少个智能体 ,咱们都期望构建一个才智大脑 ,即AI的运营全保管,并期望借此打通安排间的壁垒。”李昊说道。

但李昊也坦言 ,整个AI落地进程中,面对最大的应战 ,便是数据的处理和运用。“品牌数据已堆集完结  ,但究竟这些数据要怎样让AI去用 ?哪些数据能用 ,哪些不能用?哪些数据需求从头来过 ?这个数据的处理进程适当繁琐。”。

也正因而。,一个好的数据底座,是能够真正帮企业AI落地到中心事务中的  。

在伯俊科技进行企业AI落地进程中  ,OBCloud的一体化数据库则供给了全流程的支撑 。

“不管是从一开端的事务适配性 ,仍是事务的语义化 、架构的耦合度 ,以及终究能够贯穿事务的上下游,OB其实都给予了咱们大力支撑。”李昊说道 ,“这也就使得咱们在整个常识库建立,及进行大模型事务探究时,愈加称心如意 。”。

在OceanBase副总裁兼公有云事业部总经理尹博学看来,OB Cloud的AI才干具有4点优势 :

具有天然的一体化架构,一套数据库支撑事务处理(TP)、实时剖析(AP)、AI作业负载,用户面向AI无需引进额定技能栈;

多模向量一体化,原生支撑向量、标量 、空间  、文本等多模数据的混合检索 ,简化AI运用杂乱度;

供给开箱即用的RAG服务,0门槛构建现代RAG运用;

Bring AI to Data ,一体化架构完结数据的新鲜度与智能的实时性交融。

“咱们也期望经过OB Cloud的这4点才干,终究完结Bring AI To Data的方针 ,即当事务在前端发生的时分,就现已为了咱们的AI做好预备  。”李昊说道。

而这个进程中  ,数据库作为数据的存储核算引擎 ,也正在飞速进化。

尹博学以为 ,“云数据库与AI天然符合 。” 。

一方面 ,云数据库的弹性扩展 、本钱优化 、高可用等特性 ,为AI作业负载供给坚实底座;另一方面 ,AI对多模态数据的高效调用需求 ,推进云数据库强化向量检索、多模交融等才干 。

与此一起 ,跟着云数据库走向一体化,其和AI的交融,将有助于重塑企业智能出产力 。

作为云数据库范畴的立异者,OB Cloud不只是“能够支撑 AI”,更是已在多个实在事务场景中被企业运用,成为企业AI 运用从 0 到 1 的现代数据底座  。也正是凭借着对AI场景的深度适配和多云原生才干 ,OB Cloud也正逐步成为企业智能化晋级的抱负底座。

特别声明 :本文为协作媒体授权专栏转载,文章版权归原作者及原出处一切 。文章系作者个人观点,不代表专栏的态度 ,转载请联络原作者及原出处获取授权 。(有任何疑问都请联络idonewsdonews.com)。

- END -

242
8