DeepSeek開源DeepGEMM:有哪些技術亮點?
近日,DeepSeek再次憑借開源舉措驚艷眾人,其發布的DeepGEMM,一款開源的FP8通用矩陣乘法庫,為AI算力提升開辟了新路徑。這已經是他們開源周的第三個項目,前兩個是FlashMLA和DeepEP,各有千秋,但DeepGEMM,在我看來,才是真正捅破窗戶紙的那一個。
本文將深入剖析DeepGEMM的技術亮點、創新思路以及它對AI行業的深遠影響。
更多好文請關注我的博客:https://www.panziye.com/
以往,大家普遍認為提升AI算力主要依賴硬件升級,面對英偉達GPU緩慢的升級節奏,眾多開發者和企業也只能無奈接受。但DeepSeek推出的DeepGEMM卻打破了這一固有認知,它證明了軟件在挖掘算力潛力方面同樣大有可為。
DeepGEMM的核心代碼僅有300行,與動輒幾十萬行代碼的CUDA庫相比,簡直是“小巫見大巫”。然而,其性能表現卻令人驚嘆。根據官方數據,在Hopper GPU上,它的FP8算力能達到1350+ TFLOPS,在某些場景下,甚至比經過專家調優的CUTLASS還要快2.7倍。這意味著用更少的代碼實現了更強的性能,堪稱一場效率革命。
DeepGEMM的設計理念可以用“極致摳門”來形容,它致力于挖掘硬件的每一絲潛能,去除每一行代碼的冗余,降低每一分錢的訓練成本。
其中,FP8八位浮點格式是其一大“法寶”。FP8雖然精度相對較低,但它的優勢在于運算速度快,還能節省顯存,這對于大規模的AI訓練至關重要。DeepSeek V3能夠將訓練成本壓低至557萬美元,FP8功不可沒。不過,FP8精度低的問題也很明顯,計算次數多了容易出現錯誤。DeepGEMM采用了兩級累加的方法來解決這一難題:利用張量核心進行FP8計算,再通過CUDA核心以FP32格式進行累加,從而有效提升了計算精度,這種方法簡單直接卻十分有效。
JIT即時編譯技術也是DeepGEMM的一大亮點。傳統的計算庫通常是預先編譯好的,雖然通用性強,但在優化方面存在不足。DeepGEMM則反其道而行之,采用運行時編譯的方式。它會根據矩陣的形狀以及硬件環境,為每一次計算“量身定制”內核,就好比裁縫根據每個人的身材制作合身的衣服。在小矩陣場景下,這種優化方式帶來的性能提升最高可達2.7倍,充分展現了JIT編譯的優勢,也為未來的計算庫優化指明了方向。
TMA(Tensor Memory Accelerator)是Hopper架構的一項強大技術,DeepGEMM將其運用到了極致。通過各種數據搬運、多播和預取操作,DeepGEMM盡可能地榨干數據帶寬,減少計算延遲,就像經驗豐富的老司機開車,充分利用每一份動力,實現高效運行。
如今,大模型紛紛采用混合專家模型(MoE),參數量不斷增加,對算力的需求也越來越高。DeepGEMM針對MoE的分組GEMM進行了專門優化,考慮到了連續布局、掩碼布局等各種場景,就如同廚師精心搭配食材,滿足不同“口味”的需求,為大模型訓練提供了有力支持。
與英偉達強大但復雜的CUTLASS相比,DeepGEMM以簡潔為原則,其代碼就像教程一樣通俗易懂,大大降低了開發者的使用門檻。這不僅體現了開源的價值,讓更多人能夠參與到AI技術的發展中來,還有望成為新的行業標準。
從商業角度來看,DeepSeek在API開始收費的同時開源DeepGEMM,這更像是精心布局的戰略。通過開源底層技術,吸引大量開發者,構建活躍的生態系統,然后借助API服務實現盈利。這種模式在互聯網領域早已屢見不鮮,但在AI領域卻頗具創新性,有望打破AI基礎設施市場的巨頭壟斷格局。
不得不說,DeepSeek的這一系列動作,讓人們看到了頂尖數學家在AI技術創新中的關鍵作用。在未來的AI發展中,頂尖數學家或許比頂尖顯卡更具戰略價值,他們將引領AI技術走向新的高度。
推薦大家使用程序員導航網:https://hao.panziye.com/
DeepSeek開源DeepGEMM這一舉措意義重大,對AI開發者、企業,甚至整個行業的發展,都帶來了新的機遇和思考。期待未來能看到更多基于DeepGEMM的創新應用,推動AI技術邁向新的階段。

浙公網安備 33010602011771號