特斯拉和華為都指明了方向:世界行為模型,就是VLA的下一站!
微信視頻號:sph0RgSyDYV47z6
快手號:4874645212
抖音號:dy0so323fq2w
小紅書號:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
華為車BU CEO靳玉志最近的一些訪談拋出的觀點,很值得人細細琢磨,他除了挑戰特斯拉的純視覺技術路線之外,他還表示世界行為模型是友商押注的VLA的下一站。
我比較認可靳玉志先生的這些個觀點,接下來跟大家說出個一二三。
在飛速發展的智能電動汽車行業中,分析師要緊密跟隨形勢的發展,不怕打臉地不斷變換自己的觀點。
比如,未來的汽車到底需要使用多少芯片,在芯片上需要花多少錢,每隔半年就得重新審視一番。
主要原因在于,隨著智能座艙AI等級的提升,以及智能駕駛系統從輔助駕駛向有條件自動駕駛再到高等級自動駕駛的升級,AI芯片的成本正在隨之大幅度攀升。
能真正實現高等級自動駕駛的AI芯片的成本到底有多高呢?
我們可以找幾個參考點。
第一個來自英偉達。
英偉達雷神系列中有一款2000TOPS算力的芯片,售價在3500美金左右。
第二個錨點來自特斯拉。
在最近的一次訪談中,馬斯克表示用于擎天柱的AI芯片的物料成本將會高達五千到六千美金甚至更高。
它說的應該是號稱能跑2000億參數大模型的AI 6芯片的成本,對比英偉達H100 4萬美金的價格,這個數字真的一點都不夸張。
幾年后的特斯拉FSD中的AI芯片成本大概也是這一數字。
如果說在目前的L2+++輔助駕駛階段,單顆英偉達雷神Thor-U千把塊美金的價格,大家咬咬牙還能承受得住,算法效率高不高并不怎么重要。
那么,在L4級自動駕駛AI芯片超預期的成本壓力下,算法是否足夠高效就顯得非常重要了。
和VLA方案相比,世界行為模型突出的優點之一就在于直接在視頻和動作之間做映射,沒有語言轉換的中間層,算法效率更高。
VLA以大語言模型為核心,引入了并不只是面向自動駕駛任務的語言智能,存在視頻到語言、語言到動作的雙重轉換,不可避免地存在能力冗余,浪費和無端消耗推理芯片的算力。
算法是否高效對成本控制至關重要,畢竟把后槽牙咬碎了也很難消化幾千美金的成本,一臺車才掙多少錢呢?
作為與生俱來的本能和探索世界的方式,學習原本是獨屬于人類的專有能力。
當人工智能發展到連接主義占主導的深度學習階段之后,AI也開始展現出持續學習的能力。
跟人類通過反復的檢索、試錯和反思在大腦中建立穩固的神經通路一樣,深度神經網絡通過前向傳播“試錯”,通過后向傳播“反思”,在一次次的訓練中修正著神經網絡的結構和參數。
人類可以從少量非結構化的原始素材中主動地抽象和提煉出結構化的知識和規律,從少量的樣本中學習出復雜的概念。
而且擁有眼耳鼻舌身意六根的我們,天生擅長處理包括語言、圖像、聲音、觸覺等各種模態的非結構化信息。
此外,人類還擅長通過強大的歸納和推理能力構建出因果模型,從而擁有強大的泛化能力。
相比之下,人工智能的學習效率極低,需要通過海量經過清洗和標注的結構化數據進行訓練,要依靠數字化和向量化的顯式特征才能夠挖掘出數據中的統計關聯,且不具備真正的因果理解能力。
在學習/訓練的效率上,采用監督學習的VLA跟采用自監督學習或無監督學習的世界行為模型也存在一定的差距。
VLA中的大語言模型雖然在預訓練階段采用了效率更高的自監督學習,但是,VLA司機大模型的訓練需要大量經過視覺、文本模態對齊的標注數據。
相比之下,世界模型的訓練數據中自帶標簽,跟大語言模型采用互聯網文本進行預訓練時,每個文本字符的下一個字符都是當前字符的監督標簽一樣,車輛傳感器系統采集的視頻數據下一幀數據便是當前時刻數據的監督標簽。
這種無需標注的自回歸或無監督學習,才能以更高的訓練效率提升AI系統的智能等級。
前段時間,某平臺輔助駕駛測試引發了廣泛的爭議。在爭議中拿了第一的特斯拉掌門人馬斯克看熱鬧不嫌事大,發表了一個評論表示將再接再厲,使用世界模擬器來解決沒有測試通過的野豬橫穿場景問題。
老馬口中的世界模擬器就是云端世界模型,這是推動自動駕駛不斷前行的核心引擎。
在自動駕駛系統的訓練和測試中,世界模型有兩個主要的作用。
第一是生成長尾場景,以大規模合成數據來應對實車采集長尾場景難度越來越高、成本不斷上升、效率不斷降低的難題,突破數據瓶頸的難題。
第二是提供一個模擬的訓練場,讓自動駕駛Agent不斷地試錯、探索、優化駕駛策略。
一方面可以快速驗證技術的安全邊界,提供有確定性的安全感,另一方面通過自主進化,超越人類駕駛極限。

通過學習并內化現實世界中物體運動學、動力學和場景時空連續性等物理法則,理解時空和物理規律的世界模型具備了生成與預測的核心能力。
生成側重于在云端生成高仿真的虛擬場景數據,預測側重于在車端預測周圍環境的短期未來軌跡,其背后的核心能力均是對物理世界的準確建模。
這種核心能力的一致性使得在云端訓練的超大參數規模的世界模型可以通過剪枝、蒸餾的方式,部署到車端的輕量級模型中。
能力的順利平移,或許正是華為、蔚來選擇世界模型路線的核心原因之一。
至于世界行為模型是不是VLA的下一站,最終還是要邊走邊看。
微信視頻號:sph0RgSyDYV47z6
快手號:4874645212
抖音號:dy0so323fq2w
小紅書號:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
參考文獻鏈接

浙公網安備 33010602011771號