吉利汽車攜手阿里云函數(shù)計(jì)算,打造新一代 AI 座艙推理引擎
作者:蔣忠林,趙劍,謝東;洛浩、周華生
吉利汽車,是中國(guó)知名的自主汽車品牌,近年來(lái)通過(guò)技術(shù)創(chuàng)新和產(chǎn)品升級(jí),在國(guó)內(nèi)外市場(chǎng)取得了顯著成績(jī)。隨著 AI 浪潮的發(fā)展,吉利汽車也在不斷加強(qiáng)智能化的建設(shè),尤其在新一代 AI 座艙的建設(shè)上,成為汽車主機(jī)廠的核心競(jìng)爭(zhēng)力之一。當(dāng)前吉利汽車研究院人工智能團(tuán)隊(duì)承擔(dān)了吉利汽車座艙 AI 智能化的方案建設(shè),在和阿里云的合作中,基于星睿智算中心2.0的23.5EFLOPS強(qiáng)大算力,構(gòu)建AI混合云架構(gòu),面向百萬(wàn)級(jí)用戶的實(shí)時(shí)推理計(jì)算引入阿里云函數(shù)計(jì)算的 Serverless GPU 算力集群,共同為智能座艙的交互和娛樂(lè)功能提供大模型推理業(yè)務(wù)服務(wù),涵蓋的場(chǎng)景如針對(duì)模糊指令的復(fù)雜意圖解析、文生圖、情感 TTS 等。尤其是在語(yǔ)音交互方面,吉利自研超擬人 TTS,采用大量微調(diào)和訓(xùn)練,打造出了吉利汽車專屬的逼真、富有情感、自然生動(dòng)又穩(wěn)定一致的語(yǔ)音交互體驗(yàn)。隨著功能的持續(xù)迭代,接入的車輛也越來(lái)越多,推理引擎的端到端高可用建設(shè)也變得越來(lái)越重要,吉利汽車研究院和阿里云等合作伙伴不斷深入探索,共同為吉利汽車的新一代 AI 座艙打造大規(guī)模、高可用、高性能的推理引擎服務(wù)。

需求及挑戰(zhàn)
為了應(yīng)對(duì)日益競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境,吉利汽車研究院牽頭打造吉利汽車新一代的 AI 座艙平臺(tái),需要具備:
- 百萬(wàn)輛車接入:推理引擎需要具備大規(guī)模系統(tǒng)承載能力、擴(kuò)展能力、高可用、以及故障逃逸能力。
- 面對(duì) C 端場(chǎng)景,為了較好的用戶體驗(yàn):座艙服務(wù)的推理引擎需要能針對(duì)不同場(chǎng)景,提供良好的推理效果,包含模型能力建設(shè),以及工程化提供高性能、低延遲的鏈路建設(shè)。
- 端到端的可觀測(cè)能力建設(shè)。
- 針對(duì)模型推理的安全建設(shè)。
落地場(chǎng)景
吉利汽車研究院攜手阿里云團(tuán)隊(duì)及合作伙伴打造的吉利汽車全新一代 AI 座艙推理服務(wù)已經(jīng)在今年 6 月份上車,剛剛上市的吉利銀河 M9 車型進(jìn)行深度搭載。接下來(lái)在導(dǎo)航、車控兩大場(chǎng)景的推理服務(wù)上,以及情感TTS和文生圖(娛樂(lè))兩大場(chǎng)景的復(fù)雜計(jì)算上做介紹。

DeepThink:模糊指令的復(fù)雜意圖推理
DeepThink是吉利汽車在銀河M9上推出的新一代超擬人智能體Eva的深思決控能力,這個(gè)能力使Eva不僅可以聊天交互,而且可以規(guī)劃和拆解任務(wù)、調(diào)用工具等。超擬人智能體Eva可以在用戶出行場(chǎng)景中像人一樣幫你解決問(wèn)題。
導(dǎo)航作為出行中最重要的使用場(chǎng)景之一。在過(guò)往的使用上,用戶需要準(zhǔn)確的輸入目的地、途經(jīng)點(diǎn)。而此次吉利汽車研究院攜手阿里云等合作伙伴,通過(guò)大模型調(diào)教,讓地圖交互更加智能。只需要說(shuō)出模糊的目的地描述,通過(guò)大模型推理即可識(shí)別準(zhǔn)確的目的地。如:“我的女朋友在上海外灘,現(xiàn)在幫我在中間位置找一家餐廳然后導(dǎo)航過(guò)去。”當(dāng)語(yǔ)音指令被接收到后,大模型會(huì)進(jìn)行意圖理解和復(fù)雜計(jì)算,對(duì)任務(wù)進(jìn)行識(shí)別、規(guī)劃和拆解。第一步識(shí)別出該指令為導(dǎo)航域需求;第二步通過(guò)計(jì)算找到本車輛定位位置和上海外灘中間的位置;第三步,通過(guò)智能體記憶能力獲取我曾經(jīng)提到過(guò)的“女朋友的”飲食偏好;第四步,在“中間位置”周邊找到符合“女朋友”飲食偏好的餐廳;第五步,拉起導(dǎo)航,設(shè)置該餐廳為目的地,并規(guī)劃最合適路線。同時(shí)對(duì)用戶進(jìn)行語(yǔ)音回復(fù)。
在地圖導(dǎo)航中,如果用戶需要添加途經(jīng)點(diǎn),也可以通過(guò)簡(jiǎn)單的描述進(jìn)行檢索添加,比如“幫我在途中找個(gè)給孩子買玩具的地方”“我要買花,給我找個(gè)地方”“我要上廁所,幫我找一下哪里可以?”,過(guò)往在車輛行駛當(dāng)中,添加途經(jīng)點(diǎn)對(duì)用戶來(lái)講,操作是比較不方便的,現(xiàn)在通過(guò)大模型調(diào)教就簡(jiǎn)單多了,用戶不需要明確的輸入途經(jīng)點(diǎn)名稱,只需要說(shuō)出需求即可快速達(dá)成目的。
車控是用戶最常和最多在車上使用的,通過(guò)吉利新一代 AI 座艙推理引擎,大大提升了用戶對(duì)車控使用的便捷性。比如用戶說(shuō):“我的腰有點(diǎn)酸” ,大模型可推理出需要打開座椅按摩,并開啟腰部舒展。用戶接著說(shuō):“給副駕也安排上”。大模型馬上通過(guò)上下文理解,知道說(shuō)的還是“開啟座椅按摩并調(diào)到腰部舒展”這件事,并且馬上在副駕執(zhí)行。當(dāng)車輛行駛到高速收費(fèi)站人工繳費(fèi)通道時(shí),大模型通過(guò)VLM識(shí)別,并進(jìn)行復(fù)雜路況結(jié)算和意圖識(shí)別后,車窗自動(dòng)降下。這些更加人性化的交互執(zhí)行和主動(dòng)智能,讓用戶無(wú)論是開車的成年人,還是坐車的老人、小孩都能通過(guò)口語(yǔ)化的表達(dá),輕松的安全控車。
TTS 語(yǔ)音交互
近年來(lái),大模型參數(shù)規(guī)模和模型性能不斷創(chuàng)出新高,加速推進(jìn)人工智能實(shí)用化、通用化和普惠化發(fā)展。大模型技術(shù)為語(yǔ)音服務(wù)帶來(lái)了革命性的升級(jí),基于大模型的語(yǔ)音識(shí)別和語(yǔ)音合成能力,為用戶提供更為精準(zhǔn)、高效的服務(wù)體驗(yàn)。
為了向車機(jī)用戶提供逼真、富有情感、自然生動(dòng)又穩(wěn)定一致的語(yǔ)音交互體驗(yàn),提升車機(jī)系統(tǒng)的競(jìng)爭(zhēng)力,滿足用戶對(duì)于個(gè)性化和情感化服務(wù)的期望,同時(shí)支持針對(duì)不同車型品牌和用戶的深度定制需求;吉利自研基于大語(yǔ)言模型基座的語(yǔ)音合成大模型,構(gòu)建了海量的預(yù)訓(xùn)練數(shù)據(jù)集,并投入資源制作了數(shù)萬(wàn)小時(shí)的高質(zhì)量、精標(biāo)注 SFT(指令微調(diào))數(shù)據(jù),獲得了穩(wěn)定、自然的音色和合成效果。模型針對(duì)復(fù)雜數(shù)字符號(hào)設(shè)計(jì)了文本歸一化模塊,覆蓋了日期、比例、特殊英文單位等高頻復(fù)雜場(chǎng)景;對(duì)多音字、變音字、中英文混讀、副語(yǔ)言表達(dá)等復(fù)雜場(chǎng)景進(jìn)行了針對(duì)性的優(yōu)化,并在多次反復(fù)迭代后獲得了較為穩(wěn)定自然的表達(dá)效果。在自然與正確的表達(dá)基礎(chǔ)之上,還針對(duì)車載場(chǎng)景適配了包含興奮、有趣、共情等多情感的表達(dá)能力以及針對(duì)兒童播報(bào)場(chǎng)景的兒童友好風(fēng)格,實(shí)現(xiàn)了生動(dòng)、多變的表現(xiàn)力。并且今年6月,吉利汽車參與中國(guó)信通院組織的可信 AI 中文語(yǔ)音合成基礎(chǔ)服務(wù)評(píng)估,其產(chǎn)品吉利星睿超寫實(shí)情感語(yǔ)音合成大模型順利通過(guò)中文語(yǔ)音合成基礎(chǔ)服務(wù)評(píng)估。
為了給用戶帶來(lái)高效、實(shí)時(shí)的對(duì)話體驗(yàn),TTS 語(yǔ)音推理服務(wù)經(jīng)過(guò)極致優(yōu)化,端到端鏈路延遲控制在 100ms 以內(nèi),首包 TTFT 控制在 400ms 左右。在弱網(wǎng)或無(wú)網(wǎng)狀態(tài)下,通過(guò)汽車本地芯片算力計(jì)算,吉利自研離線超寫實(shí)語(yǔ)音合成模型,為用戶提供全場(chǎng)景下的文本轉(zhuǎn)語(yǔ)音超自然語(yǔ)音播報(bào)。在汽車芯片模型部署加速側(cè),吉利汽車人工智能團(tuán)隊(duì)與阿里巴巴淘系技術(shù)開源的深度學(xué)習(xí)框架MNN團(tuán)隊(duì)深度合作,解決了不同規(guī)格芯片場(chǎng)景下,低功耗、低延遲、高性能離線超寫實(shí)語(yǔ)音合成模型推理(MNN 是阿里巴巴淘系技術(shù)開源的深度學(xué)習(xí)引擎,支持了阿里巴巴70+場(chǎng)景下的AI應(yīng)用)。隨著應(yīng)用規(guī)模的擴(kuò)大,吉利汽車研究院和阿里云的函數(shù)計(jì)算研發(fā)團(tuán)隊(duì)也會(huì)繼續(xù)從算法和工程化兩個(gè)維度繼續(xù)優(yōu)化并發(fā)性能。

AIGC 生圖
為了給車機(jī)系統(tǒng)增加更好的交互體驗(yàn),吉利汽車研究院在車端打造了全場(chǎng)景 AI Agent,其中 AI 靈感畫師為座艙的使用增加了不少的趣味性。以 AI 靈感畫師為例,是基于 ComfyUI 進(jìn)行深度定制設(shè)計(jì)的工作流,包含壁紙圖生圖、奇幻相機(jī)、AI 兒童樂(lè)園-萌寶穿越、AI 寫真、壁紙泡泡廣場(chǎng)等多種生圖場(chǎng)景。同時(shí),針對(duì)不同的場(chǎng)景,為了保障生圖效果,還做了大量的 Lora 訓(xùn)練和自定義節(jié)點(diǎn),比如生圖的風(fēng)格、分辨率保障等。不同場(chǎng)景的生圖工作流,分別由不同的函數(shù)承載,避免切換模型帶來(lái)的生圖 latency 抖動(dòng),任務(wù)調(diào)度延遲控制在 300ms 以內(nèi),單次生圖約為8~10s。另外在函數(shù)啟動(dòng)的時(shí)候,通過(guò)模型預(yù)熱,可以保障在工作流更新的時(shí)候?qū)τ脩舻捏w驗(yàn)也是無(wú)損的。
為了提升出圖的速度,函數(shù)計(jì)算側(cè)協(xié)助研究院一起驗(yàn)證并部署了基于 ComfyUI 的模型推理加速方案,采用 DeepGPU + Teacash 方案,整體的出圖速度提升了50% 以上,并且是無(wú)損的效果。

落地方案及效果
端到端 AI 應(yīng)用高可用建設(shè)需求
為了保障大規(guī)模的生產(chǎn)車輛接入和用戶的極致使用體驗(yàn),座艙推理引擎服務(wù)對(duì)工程化也提出了極高的要求:
- 高可用
- 模型請(qǐng)求怎么高可靠接入
- 推理服務(wù)怎么做到高可靠
- 故障恢復(fù)策略
- 高性能(GPU 利用率提升,QPS 提升,降低延遲)
- 使用FC如何做到冷啟動(dòng)低延遲和模型預(yù)熱
- 如何實(shí)現(xiàn)推理請(qǐng)求的批量執(zhí)行
- PD分離與推理緩存
- 端到端的可觀測(cè)和告警機(jī)制(及時(shí)發(fā)現(xiàn)、及時(shí)處理)等
基于函數(shù)計(jì)算的落地方案
阿里云基于函數(shù)計(jì)算 FC 協(xié)助吉利汽車研究院一起搭建座艙 AI 推理統(tǒng)一平臺(tái),提供面向 Serverless 化、高可用、高性能和低時(shí)延的算力集群。同時(shí)阿里云協(xié)助吉利汽車一起梳理優(yōu)化座艙服務(wù)的全鏈路穩(wěn)定性建設(shè)、模型工程化優(yōu)化、模型推理高可用、模型推理加速等。
函數(shù)計(jì)算是阿里云推出的 FaaS 服務(wù)平臺(tái),是典型的 Serverless 計(jì)算產(chǎn)品。Serverless 的技術(shù)理念可以總結(jié)為:Zero Server Ops(無(wú)需關(guān)注和維護(hù)服務(wù)器等基礎(chǔ)設(shè)施,具備自動(dòng)彈性伸縮能力) + No Compute Cost When Idle。Serverless 技術(shù)可以讓企業(yè)和開發(fā)者更加專注業(yè)務(wù),把更多的精力用在業(yè)務(wù)創(chuàng)新和業(yè)務(wù)迭代上,而云廠商來(lái)管理資源的維護(hù)工作,并提供資源的彈性伸縮能力、穩(wěn)定性、以及按實(shí)際使用進(jìn)行付費(fèi)的能力。除此之外,借助Serverless 的彈性和按量付費(fèi)能力,在很大程度上還可以提升資源利用率,進(jìn)而節(jié)省用云的資源成本,而云廠商通過(guò)提供標(biāo)準(zhǔn)化的運(yùn)行環(huán)境和聯(lián)動(dòng)上下游產(chǎn)品的集成生態(tài),可以最大程度上降低用云的門檻和成本。
基于函數(shù)計(jì)算和 AI 網(wǎng)關(guān)、以及可觀測(cè)能力打造的 AI 原生應(yīng)用架構(gòu),具備端到端的高可用、高性價(jià)比算力供給等特點(diǎn):
- 按量快照技術(shù):函數(shù)計(jì)算提供按量快照技術(shù),支持 24小時(shí)*30 天預(yù)留 GPU 卡使用,避免彈卡風(fēng)險(xiǎn)。在 GPU 卡沒(méi)有請(qǐng)求的時(shí)候,會(huì)轉(zhuǎn)為閑置狀態(tài),費(fèi)用降低為正常的 20% 左右(只計(jì)收內(nèi)存和顯存狀態(tài)費(fèi)用),極大降低了GPU的使用成本。
- 一站式集成平臺(tái):函數(shù)計(jì)算有別于裸機(jī),會(huì)提供全托管的容器實(shí)例,支持標(biāo)準(zhǔn)鏡像部署,內(nèi)置資源調(diào)度、請(qǐng)求級(jí)別負(fù)載均衡、請(qǐng)求級(jí)別監(jiān)控、日志等能力,無(wú)需預(yù)購(gòu)和維護(hù)虛擬機(jī)節(jié)點(diǎn)、集群升級(jí)等。業(yè)務(wù)方可以聚焦關(guān)注代碼邏輯,同時(shí)運(yùn)維打通 CICD、配置監(jiān)控大盤、做好權(quán)限管理、告警管理、函數(shù)管理等即可穩(wěn)定使用。
- 模型優(yōu)雅上下線:函數(shù)計(jì)算支持模型預(yù)熱、優(yōu)雅輪轉(zhuǎn)、滾動(dòng)重啟等能力機(jī)制,確保變更發(fā)布時(shí)的請(qǐng)求無(wú)損。
- 端到端高可用建設(shè):函數(shù)計(jì)算平臺(tái)在主流Region從接入層到調(diào)度層、算力層、網(wǎng)絡(luò)層,均提供至少 3AZ 的高可用能力建設(shè),推理服務(wù)的入口具備全局可用性,能夠跨多個(gè)可用區(qū)分發(fā)流量,并能從后端故障中自動(dòng)恢復(fù)。搭配端到端的 Trace 能力,能夠快速定位和解決問(wèn)題。

基于函數(shù)計(jì)算的方案落地效果
- 算力成本優(yōu)化 33%: 基于推理業(yè)務(wù)的 C 端屬性,F(xiàn)C 的按量快照使用模式在保障用戶使用體驗(yàn)不變的情況下,相比 IaaS 資源供給,成本優(yōu)化高達(dá) 33%。
- 算力集群簡(jiǎn)化維護(hù): 基于 Serverless 技術(shù),提供“拎包入住”的使用體驗(yàn),極大釋放了運(yùn)維側(cè)的資源維護(hù)壓力,由阿里云 FC 團(tuán)隊(duì)保障算力集群的高可用和 GPU 算力的穩(wěn)定供給,吉利汽車研究院的業(yè)務(wù)方專注模型服務(wù),運(yùn)維方專注業(yè)務(wù)高可用建設(shè)。
- 端到端高可用 SLA 99.99%(持續(xù)建設(shè)中): 借鑒云原生應(yīng)用的高可用建設(shè)經(jīng)驗(yàn),吉利汽車和阿里云等合作伙伴一起推動(dòng) AI 推理引擎的端到端應(yīng)用觀測(cè)、Trace 追蹤、灰度發(fā)布、SRE 保障機(jī)制、大規(guī)模集群高可用建設(shè)等,支持百萬(wàn)車輛的穩(wěn)定接入能力。
函數(shù)計(jì)算——打造 AI 應(yīng)用時(shí)代最佳的運(yùn)行時(shí)
隨著 Agent 的持續(xù)爆火,AI 應(yīng)用落地呈現(xiàn)加速的趨勢(shì),MCP 讓大模型可以更加標(biāo)準(zhǔn)的感知外部世界,極大擴(kuò)展了大模型的能力。函數(shù)計(jì)算除了托管模型推理服務(wù)之外,還推出了 AI Studio 運(yùn)行工作流、Sandbox 做強(qiáng)化學(xué)習(xí)和代碼沙箱環(huán)境、MCP Runtime 運(yùn)行 MCP 服務(wù)等。至此,在函數(shù)計(jì)算上可以構(gòu)建出完整的端到端 AI 應(yīng)用,支持用戶打造出全新的 AI 應(yīng)用架構(gòu)。

結(jié)語(yǔ)
吉利汽車研究院與阿里云攜手,不僅為用戶帶來(lái)了前所未有的智能座艙體驗(yàn),也為整個(gè)汽車行業(yè)樹立了新的標(biāo)桿。未來(lái),雙方將繼續(xù)深化合作,探索更多 AI 應(yīng)用場(chǎng)景,推動(dòng)智能出行的創(chuàng)新發(fā)展。

浙公網(wǎng)安備 33010602011771號(hào)