火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
深勢科技是全球AI for Science開拓者,依托在交叉學科領(lǐng)域的深耕,構(gòu)建了“深勢·宇知”AI for Science大模型體系,并進一步解決科學研究和工業(yè)研發(fā)領(lǐng)域的關(guān)鍵問題,將眾多學科的科研方法從“實驗試錯 / 計算機”時代帶入了“預(yù)訓(xùn)練模型時代”。
基于AI for Science,深勢科技打造了全球首個覆蓋“讀文獻-做計算-做實驗-多學科協(xié)同”的AI科研平臺——玻爾,以全新升級的“科學導(dǎo)航( Science Navigator, SN )”為核心,讓科學家們擺脫繁瑣的信息搜索,把更多時間交給真正的科研。
玻爾正在重構(gòu)科研流程、釋放科研創(chuàng)造力。該平臺以先進的人工智能技術(shù)為核心,系統(tǒng)性解決科研人員在文獻篩選、跨學科知識發(fā)現(xiàn)及學術(shù)資源獲取等環(huán)節(jié)中的關(guān)鍵痛點,尤其有效應(yīng)對了信息過載、檢索繁雜、整理耗時等挑戰(zhàn)。面向文獻數(shù)量龐大、更新迅速、格式多樣等現(xiàn)實問題;同時,這些文獻數(shù)據(jù)表逾10萬張,內(nèi)容模態(tài)多元復(fù)雜,從英語、日語、德語的文本數(shù)據(jù),到分子結(jié)構(gòu)圖、實驗曲線圖譜等非結(jié)構(gòu)化視覺信息。玻爾為全球科研人員提供“一站式”的智能研究支持。
隨著業(yè)務(wù)規(guī)模的快速擴張和數(shù)據(jù)復(fù)雜性的急劇提升,對高效、智能數(shù)據(jù)處理能力的需求也水漲船高。以往JSON文件、壓縮文本等多種格式數(shù)據(jù)抵達時,技術(shù)團隊常需為每種格式定制開發(fā)解析程序,耗時有數(shù)周之久;在大規(guī)模文獻翻譯任務(wù)中,確保圖示、標注等關(guān)鍵信息的完整性和傳遞精度成為關(guān)鍵訴求;此外,文本與圖像數(shù)據(jù)處于不同存儲位置,實現(xiàn)高效的跨模態(tài)關(guān)聯(lián)檢索存在一定延遲,制約了知識庫更新及行業(yè)報告的時效性。
為攻克這些技術(shù)難點,深勢科技與火山引擎數(shù)智平臺深度合作,融合火山引擎DataSail數(shù)據(jù)集成工具、AI數(shù)據(jù)湖服務(wù)LAS及火山方舟模型服務(wù)的核心能力。
在數(shù)據(jù)處理流程上,LAS的可視化操作界面提升了開發(fā)效率,技術(shù)團隊得以將更多資源投入核心算法研發(fā)。通過數(shù)據(jù)清洗預(yù)處理與火山方舟模型服務(wù)的協(xié)同作用,整體翻譯準確率提升約5%。在圖片處理方面,調(diào)用大模型判斷圖片所屬科學領(lǐng)域及關(guān)注內(nèi)容,調(diào)用圖片理解模型生成向量并回寫,圖片處理的效率及準確率也有所提升。
面向高峰業(yè)務(wù)場景,火山引擎提供了充沛的算力支持,通過按需調(diào)整的流量配額,保障了大流量下的系統(tǒng)穩(wěn)定性。統(tǒng)一高效的數(shù)據(jù)處理體系,成功為海量科研信息架設(shè)起一條無縫流轉(zhuǎn)的“信息動脈”。
當前,越來越多科研人員采用深勢科技的產(chǎn)品實現(xiàn)海量文獻的高效檢索、管理與閱讀,并利用平臺專業(yè)工具提升科研效率。未來,火山引擎還將繼續(xù)和深勢科技攜手,讓科學家從繁瑣的基礎(chǔ)工作中解脫出來,以AI 技術(shù)釋放科研創(chuàng)新潛能。

浙公網(wǎng)安備 33010602011771號