為何底層數(shù)據(jù)湖決定了 AI Agent 的上限?
隨著 Agent 的逐步普及,以及 Seedream4.0、Sora2 等模型的陸續(xù)發(fā)布,AI 落地企業(yè)的進(jìn)程進(jìn)一步加快,數(shù)據(jù)類型變得更加豐富,數(shù)據(jù)消費(fèi)的需求和鏈路也在發(fā)生變化,企業(yè)級(jí)數(shù)據(jù)架構(gòu)正經(jīng)歷一次深度重構(gòu)。
過去,企業(yè)依賴 ETL 與湖倉體系構(gòu)建的數(shù)據(jù)管道,通常只能產(chǎn)出 T+1 的分析結(jié)果。但在實(shí)時(shí)交互的智能體場(chǎng)景中,傳統(tǒng)架構(gòu)的固有延遲已成為瓶頸。數(shù)據(jù)平臺(tái)必須從靜態(tài)的“分析倉庫”,轉(zhuǎn)型為能夠?qū)崟r(shí)支撐模型的“數(shù)據(jù)服務(wù)層”。
此外,數(shù)據(jù)治理的主要對(duì)象也在發(fā)生變化,多模態(tài)數(shù)據(jù)的體量正在快速增加。IDC 預(yù)測(cè),從 2024 年到 2029 年,在中國和全球范圍內(nèi),多模態(tài)數(shù)據(jù)規(guī)模都將處于高速增長階段。6 年內(nèi)增長 3 倍以上,年均復(fù)合增長率接近 30%。
這樣的增速,早已超出了“湖倉一體”架構(gòu)的原始設(shè)計(jì)預(yù)期。湖倉一體的概念由 Databricks 提出,并在 2020 年前后迎來大規(guī)模產(chǎn)品化:Delta、Hudi、Iceberg 等技術(shù)相繼興起,主要面向結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)(如用戶行為里的 JSON 字段),共同撐起了“湖倉一體”的黃金階段,直到生成式 AI 的爆發(fā)打破了這一格局。
在這一背景下,AI 產(chǎn)業(yè)迫切需要一種全新的企業(yè)級(jí)數(shù)據(jù)架構(gòu),能夠圍繞多模態(tài)數(shù)據(jù)進(jìn)行重點(diǎn)優(yōu)化,既實(shí)現(xiàn)極致性能,又盡可能降低模型的訓(xùn)推成本,從而優(yōu)化 GenAI 落地生產(chǎn)環(huán)境后的產(chǎn)品體驗(yàn)。
火山引擎給出的答案,是構(gòu)建多模態(tài)數(shù)據(jù)湖:在統(tǒng)一底座上納管文本、圖像、音視頻與向量數(shù)據(jù),支持上下文的動(dòng)態(tài)組裝,并實(shí)時(shí)服務(wù)于訓(xùn)練、檢索與在線推理,從而將數(shù)據(jù)能力從“可存可查”推進(jìn)到“即取即用”的階段。
最重要的是,其“服務(wù)對(duì)象”也在發(fā)生轉(zhuǎn)變:從過去單一服務(wù)于人,逐漸擴(kuò)展到同時(shí)服務(wù)人和 AI。
1 從“給人用”到“讓模型能用”,舊思路跟不上了某種程度上,AI 把過去“難用起來”的數(shù)據(jù),統(tǒng)統(tǒng)變成了“數(shù)據(jù)金礦”。
合同和技術(shù)白皮書這類 PDF,不再只是歸檔文件,它們可以被轉(zhuǎn)成可檢索、可問答的知識(shí);客服錄音與通話轉(zhuǎn)寫,也能用來訓(xùn)練情緒識(shí)別與對(duì)話策略;產(chǎn)品圖片和相關(guān)視頻,可以變成多模態(tài)可檢索的素材。換句話說,企業(yè)里“最難處理”的那批非結(jié)構(gòu)化資產(chǎn)正在成為模型效果提升的直接燃料,參與檢索增強(qiáng)與訓(xùn)練微調(diào)。
與此同時(shí),數(shù)據(jù)的體量與節(jié)奏也完全不同于傳統(tǒng)表格:圖片和視頻動(dòng)輒比行列數(shù)據(jù)大上幾個(gè)數(shù)量級(jí);業(yè)務(wù)與設(shè)備不斷產(chǎn)出新幀、新段落、新語音片段;更重要的是,模型本身也在“自產(chǎn)數(shù)據(jù)”,從生成內(nèi)容到推理日志、評(píng)測(cè)結(jié)果與用戶反饋,都會(huì)實(shí)時(shí)回流到訓(xùn)練與評(píng)估環(huán)節(jié),持續(xù)改進(jìn)整體效果。多模態(tài)由“特例”變成“默認(rèn)”:輸入端常常是“圖片 + 文本描述”這樣的組合,輸出也可能跨模態(tài),例如從文本到音頻 / 視頻。
因此,數(shù)據(jù)的服務(wù)對(duì)象自然發(fā)生遷移,用火山引擎數(shù)智平臺(tái)產(chǎn)品總監(jiān)王彥輝的話說:“如今服務(wù)對(duì)象從‘讓人理解和使用數(shù)據(jù)(看報(bào)表)’,變成了‘讓模型來使用、消費(fèi)和理解數(shù)據(jù)’。”
然而,這種轉(zhuǎn)換,并非沒有挑戰(zhàn)。當(dāng)涉及 AI 和多模態(tài)數(shù)據(jù)集時(shí),利用數(shù)據(jù)去改進(jìn)模型的迭代周期非常痛苦。在一個(gè)工作流里,你需要能快速掃描(比如過濾和 EDA 探索),也需要支持隨機(jī)訪問(比如搜索或訓(xùn)練時(shí)的數(shù)據(jù)打亂 shuffle),還得能管理大文件,比如圖片和視頻,從對(duì)象存儲(chǔ)中高效流式傳輸?shù)?GPU。傳統(tǒng)棧里鮮有系統(tǒng)能在這三點(diǎn)上同時(shí)表現(xiàn)出色。
在舊有地基上搭建的后果,就是你往往要為不同任務(wù)維護(hù)同一份數(shù)據(jù)的多份拷貝。如今訓(xùn)練數(shù)據(jù)都到 PB 了,多份拷貝成本顯然也會(huì)非常高。還得手工在不同格式之間轉(zhuǎn)換、保持同步,用一堆各自為政的工具。這讓系統(tǒng)過于復(fù)雜,也讓你團(tuán)隊(duì)里最貴的工程師把時(shí)間浪費(fèi)在底層數(shù)據(jù)搬運(yùn)上,而不是改進(jìn)模型或 AI 應(yīng)用。
因此,從管理者的角度看,如今的瓶頸已不在于“分析是否足夠深入”,而在于“用于 AI 是否足夠順手”。
數(shù)據(jù)湖必須從“報(bào)表型設(shè)施”升級(jí)為“AI 原生底座”:底層不僅要能存,還要能管。其中計(jì)算從以分析為中心轉(zhuǎn)向跨模態(tài)轉(zhuǎn)換與混合檢索的常態(tài),管理對(duì)象從“表”擴(kuò)展到模型、AI 工具與 Agent。
這也是為什么“對(duì)象存儲(chǔ) + 傳統(tǒng)表格式層”已難以承載多模態(tài)的一體化訴求。Iceberg 仍是表格類數(shù)據(jù)湖的事實(shí)標(biāo)準(zhǔn),但其面向文本 / 表數(shù)據(jù)的演進(jìn)路徑,難以同時(shí)滿足 快速掃描 + 隨機(jī)訪問 + 大文件流式傳輸 的組合需求。企業(yè)需要與數(shù)據(jù)湖深度協(xié)同的云原生架構(gòu),用同一份數(shù)據(jù)統(tǒng)一支撐存儲(chǔ)、搜索、訓(xùn)練到在線檢索的完整 AI 工作流。
這種背景下,在調(diào)研多個(gè)開源技術(shù)路線后,火山引擎選擇了 Lance 作為新的湖格式。
王彥輝表示,多模態(tài)的結(jié)合與跨模態(tài)轉(zhuǎn)換的需求,自 2023 年起就呈現(xiàn)出快速增長的趨勢(shì)。Lance 的突出優(yōu)勢(shì)在于對(duì)多種模態(tài)數(shù)據(jù)的原生支持,這在傳統(tǒng)的數(shù)據(jù)湖建設(shè)中非常少見。
“可以說,我們是國內(nèi)最早引入 Lance 的團(tuán)隊(duì)之一,并將其作為多模態(tài)數(shù)據(jù)湖的基礎(chǔ)設(shè)施進(jìn)行落地和推廣。”
這一頗具前瞻性的技術(shù)選型,并非追逐熱點(diǎn),而是基于一個(gè)明確的判斷:在 AI 定義數(shù)據(jù)架構(gòu)的新范式下,對(duì)多模態(tài)的原生支持將不再是可選項(xiàng),而是下一代數(shù)據(jù)湖的基石。
2 從“能用”到“好用”:一套“為模型服務(wù)”的開放式底座王彥輝回憶,2023 年下半年,大模型的快速爆發(fā)成為團(tuán)隊(duì)的轉(zhuǎn)折點(diǎn)。無論是字節(jié)內(nèi)部,還是火山引擎服務(wù)的 ToB 客戶側(cè),大家都已明顯感受到對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的新需求。團(tuán)隊(duì)隨即從計(jì)算和存儲(chǔ)兩條主線入手,啟動(dòng)技術(shù)升級(jí)。
在計(jì)算層面,Spark 已經(jīng)成為大數(shù)據(jù)處理的核心技術(shù)棧,廣泛用于文本類 LLM 的任務(wù),比如全局去重。但大模型場(chǎng)景下,分區(qū)數(shù)量遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)搜索或報(bào)表平臺(tái)的規(guī)模,于是團(tuán)隊(duì)就在現(xiàn)有產(chǎn)品上不斷做優(yōu)化和升級(jí)。
到了 2023 年底至 2024 年初,多模態(tài)模型迅速興起,圖像、音視頻等數(shù)據(jù)處理的需求驟然增加,要高效、分布式的完成數(shù)據(jù)處理,這是當(dāng)時(shí)用戶關(guān)注的最核心的問題,而原有的文本計(jì)算框架顯得捉襟見肘。團(tuán)隊(duì)敏銳地捕捉到 Ray 的潛力,并在內(nèi)部和客戶場(chǎng)景中率先推廣,將其作為多模態(tài)分布式計(jì)算的基石。
與此同時(shí),存儲(chǔ)層面也遇到了新挑戰(zhàn):如何在模型訓(xùn)練過程中支持高效點(diǎn)查,成為當(dāng)時(shí)最亟需解決的問題。在調(diào)研國際開源技術(shù)路線時(shí),團(tuán)隊(duì)注意到 Lance 格式的出現(xiàn)。
與傳統(tǒng)的 Parquet、ORC 以及基于它們構(gòu)建的 Iceberg、Delta、Hudi 不同,Lance 從一開始就面向 AI 時(shí)代的數(shù)據(jù)需求而設(shè)計(jì)。它的目標(biāo)是成為多模態(tài)數(shù)據(jù)的 “單一事實(shí)來源”, 讓文本、圖像、音視頻與向量都能放在同一張表中,并在其上完成分析、檢索與訓(xùn)練。
在 AI 與多模態(tài)數(shù)據(jù)的場(chǎng)景里,Lance 提供了一種全新的數(shù)據(jù)湖格式。“我們當(dāng)時(shí)的判斷是,先要解決存儲(chǔ)問題。如果這個(gè)環(huán)節(jié)沒有在關(guān)鍵時(shí)間點(diǎn)完成突破,很多應(yīng)用只能依賴臨時(shí)性的 work around,而這些方案往往無法真正落地。” 王彥輝回顧道。
基于這些選型思考,團(tuán)隊(duì)決定以 MVP 方式快速落地產(chǎn)品原型,再持續(xù)迭代打磨。
火山引擎多模態(tài)數(shù)據(jù)湖一方面在 EMR 產(chǎn)品中快速集成了 Ray 和 Lance,另一方面也孵化出全新的 AI 數(shù)據(jù)湖服務(wù)(LakeHouse AI Service)。“這一切,都是為了更好地契合快速爆發(fā)的 AI 業(yè)務(wù)對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的需求?!?/span>
在做出這些技術(shù)選擇的背后,團(tuán)隊(duì)也逐漸形成了一套明確的方法論。面對(duì)新一代 AI 工作負(fù)載,他們不僅關(guān)注技術(shù)性能,還從三個(gè)維度進(jìn)行判斷:
其一是技術(shù)的成熟度和未來演進(jìn)方向,能否持續(xù)跟上行業(yè)節(jié)奏;
其二是市場(chǎng)上是否存在真實(shí)而強(qiáng)烈的需求,避免停留在實(shí)驗(yàn)室階段;
其三是上下游生態(tài)的協(xié)同度,能否與既有的數(shù)據(jù)湖、計(jì)算引擎和 AI 平臺(tái)順暢對(duì)接。
正是基于這三條標(biāo)準(zhǔn),他們最終選擇優(yōu)先“補(bǔ)齊地基”——先解決存儲(chǔ)與檢索的核心問題,再推動(dòng)計(jì)算側(cè)的產(chǎn)品化與規(guī)?;?,這種思路也成為后續(xù)火山引擎多模態(tài)數(shù)據(jù)湖打磨過程中的一條主線。
火山引擎多模態(tài)數(shù)據(jù)湖全景架構(gòu)
3 如何把多模態(tài)數(shù)據(jù)湖“用出 AI 原生優(yōu)勢(shì)”在早期技術(shù)選型階段結(jié)束之后,火山多模態(tài)數(shù)據(jù)湖團(tuán)隊(duì)不再滿足于“跑得起來”,而是把目標(biāo)放在“跑得更高效、更易用”。
在實(shí)際使用中,用戶對(duì)算力的需求往往波動(dòng)極大。比如在需要快速交付一批數(shù)據(jù)時(shí),會(huì)瞬間拉起大量算力,而數(shù)據(jù)清洗完成后,又不再需要如此多的資源。為了應(yīng)對(duì)這種高起伏的負(fù)載特性,團(tuán)隊(duì)選擇了 Ray on Kubernetes 技術(shù)棧,以保障算力的彈性調(diào)度和交付能力。
隨著大模型生態(tài)的快速擴(kuò)張,開發(fā)者群體數(shù)量與質(zhì)量的提升也給產(chǎn)品提出了新要求:許多個(gè)人或小團(tuán)隊(duì)主要是聚焦自己的業(yè)務(wù),并不具備非常強(qiáng)的數(shù)據(jù)處理或數(shù)據(jù)開發(fā)能力,但仍希望能夠低門檻處理多模態(tài)數(shù)據(jù)。為此,團(tuán)隊(duì)將字節(jié)跳動(dòng)內(nèi)部最佳實(shí)踐沉淀為一批 AI 數(shù)據(jù)處理算子,覆蓋去重、質(zhì)量評(píng)估、特征生成等關(guān)鍵環(huán)節(jié),讓開發(fā)者能夠開箱即用地完成數(shù)據(jù)準(zhǔn)備,縮短從原始數(shù)據(jù)到可訓(xùn)練樣本的路徑。
火山引擎把統(tǒng)一元數(shù)據(jù)管理從傳統(tǒng)“只管理表”,擴(kuò)展到模型、AI 工具(如檢索組件)和 Agent。同一份數(shù)據(jù)從獲取、清洗、切分、標(biāo)注,到被哪些模型 /Agent 使用、效果如何,都能被追蹤與評(píng)估;一旦線上指標(biāo)出現(xiàn)抖動(dòng),能夠快速溯源到數(shù)據(jù)或算子層面,明確是“數(shù)據(jù)不足需要補(bǔ)采”,還是“存在事實(shí)性錯(cuò)誤需修正”。名義上仍是“統(tǒng)一元數(shù)據(jù)”,但管理對(duì)象、路徑與使用場(chǎng)景已迥異于大數(shù)據(jù)平臺(tái)時(shí)代。
在解決了這些核心問題之后,隨著客戶技術(shù)演進(jìn),新的關(guān)注點(diǎn)逐漸轉(zhuǎn)向成本控制與數(shù)據(jù)管理。為此,團(tuán)隊(duì)又設(shè)計(jì)并提供了一系列數(shù)據(jù)管理工具,幫助用戶在追求效率的同時(shí),更好地實(shí)現(xiàn)成本目標(biāo)。
在生態(tài)上,火山引擎多模態(tài)數(shù)據(jù)湖也以“集成”而非“替換”為原則堅(jiān)持開放,與企業(yè)現(xiàn)有引擎與平臺(tái)集成,而非一刀切替換。它既能與火山引擎內(nèi)部生態(tài)(如方舟機(jī)器學(xué)習(xí)平臺(tái)、向量數(shù)據(jù)庫等)順暢對(duì)接,也歡迎主流開源組件:Ray、Daft、Spark 等都可無縫接入。對(duì)外部團(tuán)隊(duì)來說,這意味著技術(shù)棧可選、架構(gòu)可演進(jìn)、無供應(yīng)商鎖定。
這也正如王彥輝所強(qiáng)調(diào)的:“最好的競(jìng)爭力,一定來自 生態(tài)?!?/span>
4 一個(gè)典型行業(yè)縮影值得注意的是,憑借起步早的優(yōu)勢(shì),火山多模態(tài)數(shù)據(jù)湖已經(jīng)在具身智能和自動(dòng)駕駛行業(yè)積累了大量的客戶案例與實(shí)踐。
以智能駕駛為例,這是最早落地的重要場(chǎng)景之一。攝像頭采集的圖像、激光雷達(dá)點(diǎn)云、行車路線等多模態(tài)數(shù)據(jù)正以前所未有的速度涌現(xiàn)。這類數(shù)據(jù)不僅規(guī)模龐大、形式多樣,而且對(duì)實(shí)時(shí)處理提出了極高要求。
一家國內(nèi)知名汽車企業(yè)在建設(shè)智駕系統(tǒng)時(shí),就曾遇到這樣的問題:單輛測(cè)試車每天產(chǎn)生數(shù) TB 數(shù)據(jù),量產(chǎn)后規(guī)模將飆升至 EB 級(jí)。如何在降低存儲(chǔ)成本的同時(shí)保證高效檢索?如何在單機(jī)實(shí)驗(yàn)與大規(guī)模生產(chǎn)間平滑切換?如何讓海量非結(jié)構(gòu)化數(shù)據(jù)真正釋放價(jià)值?這些都成為橫亙?cè)谒麄兠媲暗奶魬?zhàn)。
火山引擎多模態(tài)數(shù)據(jù)湖的引入,給出了答案。它支持在動(dòng)態(tài)標(biāo)注場(chǎng)景中靈活新增特征,無需重寫歷史數(shù)據(jù)集,大幅節(jié)省存儲(chǔ)資源;其透明壓縮機(jī)制讓點(diǎn)云數(shù)據(jù)壓縮率達(dá)到 70%,顯著緩解了網(wǎng)絡(luò)帶寬壓力;在模型訓(xùn)練環(huán)節(jié),通過輕量級(jí)調(diào)度和列級(jí)讀取,有效避免 IO 放大,使 GPU 利用率從不足 60% 提升至 90% 以上。
落地效果同樣顯著:客戶在真實(shí)場(chǎng)景中實(shí)現(xiàn)了 EB 級(jí)數(shù)據(jù)三倍處理效率提升,模型訓(xùn)練交付速度加快 40%,整體研發(fā)迭代節(jié)奏隨之提速。更重要的是,這套體系幫助企業(yè)真正完成了從“能跑起來”到“跑得高效、用得輕松”的轉(zhuǎn)變。
事實(shí)上,自動(dòng)駕駛只是火山引擎多模態(tài)數(shù)據(jù)湖落地的一個(gè)起點(diǎn)。隨著多模態(tài)數(shù)據(jù)在 AI 產(chǎn)業(yè)中的爆發(fā)式增長,這一體系正在展現(xiàn)出更廣泛的應(yīng)用潛力。未來,它將在更多行業(yè)場(chǎng)景中發(fā)揮作用:在醫(yī)療影像領(lǐng)域,能夠統(tǒng)一管理 CT、MRI 影像與病歷文本,助力輔助診斷與新藥研發(fā);在工業(yè)制造中,可以處理來自傳感器、視頻監(jiān)控和日志的多模態(tài)數(shù)據(jù),實(shí)現(xiàn)預(yù)測(cè)性維護(hù)與質(zhì)量檢測(cè);在文娛內(nèi)容生產(chǎn)中,則能組織圖像、視頻與音頻素材,為 AIGC 創(chuàng)作提供高效的訓(xùn)練數(shù)據(jù)底座。
這些多模態(tài)應(yīng)用場(chǎng)景的共同點(diǎn)在于數(shù)據(jù)規(guī)模龐大、類型復(fù)雜、需要實(shí)時(shí)處理與反饋?;鹕揭娑嗄B(tài)數(shù)據(jù)湖的價(jià)值就在于此:它不僅解決了這些場(chǎng)景下 AI 使用者的痛點(diǎn),也正在成為 AI 時(shí)代通用的數(shù)據(jù)基礎(chǔ)設(shè)施。

浙公網(wǎng)安備 33010602011771號(hào)