DeepSeek開源DeepGEMM：有哪些技術亮點？

近日，DeepSeek再次憑借開源舉措驚艷眾人，其發布的DeepGEMM，一款開源的FP8通用矩陣乘法庫，為AI算力提升開辟了新路徑。這已經是他們開源周的第三個項目，前兩個是FlashMLA和DeepEP，各有千秋，但DeepGEMM，在我看來，才是真正捅破窗戶紙的那一個。

本文將深入剖析DeepGEMM的技術亮點、創新思路以及它對AI行業的深遠影響。

更多好文請關注我的博客：https://www.panziye.com/

DeepGEMM：打破AI算力“天花板”的利器

以往，大家普遍認為提升AI算力主要依賴硬件升級，面對英偉達GPU緩慢的升級節奏，眾多開發者和企業也只能無奈接受。但DeepSeek推出的DeepGEMM卻打破了這一固有認知，它證明了軟件在挖掘算力潛力方面同樣大有可為。

DeepGEMM的核心代碼僅有300行，與動輒幾十萬行代碼的CUDA庫相比，簡直是“小巫見大巫”。然而，其性能表現卻令人驚嘆。根據官方數據，在Hopper GPU上，它的FP8算力能達到1350+ TFLOPS，在某些場景下，甚至比經過專家調優的CUTLASS還要快2.7倍。這意味著用更少的代碼實現了更強的性能，堪稱一場效率革命。

DeepGEMM的技術“秘籍”

（一）極致“摳門”，挖掘硬件潛能

DeepGEMM的設計理念可以用“極致摳門”來形容，它致力于挖掘硬件的每一絲潛能，去除每一行代碼的冗余，降低每一分錢的訓練成本。

其中，FP8八位浮點格式是其一大“法寶”。FP8雖然精度相對較低，但它的優勢在于運算速度快，還能節省顯存，這對于大規模的AI訓練至關重要。DeepSeek V3能夠將訓練成本壓低至557萬美元，FP8功不可沒。不過，FP8精度低的問題也很明顯，計算次數多了容易出現錯誤。DeepGEMM采用了兩級累加的方法來解決這一難題：利用張量核心進行FP8計算，再通過CUDA核心以FP32格式進行累加，從而有效提升了計算精度，這種方法簡單直接卻十分有效。

（二）JIT編譯：“量體裁衣”式的優化

JIT即時編譯技術也是DeepGEMM的一大亮點。傳統的計算庫通常是預先編譯好的，雖然通用性強，但在優化方面存在不足。DeepGEMM則反其道而行之，采用運行時編譯的方式。它會根據矩陣的形狀以及硬件環境，為每一次計算“量身定制”內核，就好比裁縫根據每個人的身材制作合身的衣服。在小矩陣場景下，這種優化方式帶來的性能提升最高可達2.7倍，充分展現了JIT編譯的優勢，也為未來的計算庫優化指明了方向。

（三）巧用TMA：榨干數據帶寬

TMA（Tensor Memory Accelerator）是Hopper架構的一項強大技術，DeepGEMM將其運用到了極致。通過各種數據搬運、多播和預取操作，DeepGEMM盡可能地榨干數據帶寬，減少計算延遲，就像經驗豐富的老司機開車，充分利用每一份動力，實現高效運行。

（四）優化MoE：適配大模型需求

如今，大模型紛紛采用混合專家模型（MoE），參數量不斷增加，對算力的需求也越來越高。DeepGEMM針對MoE的分組GEMM進行了專門優化，考慮到了連續布局、掩碼布局等各種場景，就如同廚師精心搭配食材，滿足不同“口味”的需求，為大模型訓練提供了有力支持。

DeepGEMM對AI行業的影響

與英偉達強大但復雜的CUTLASS相比，DeepGEMM以簡潔為原則，其代碼就像教程一樣通俗易懂，大大降低了開發者的使用門檻。這不僅體現了開源的價值，讓更多人能夠參與到AI技術的發展中來，還有望成為新的行業標準。

從商業角度來看，DeepSeek在API開始收費的同時開源DeepGEMM，這更像是精心布局的戰略。通過開源底層技術，吸引大量開發者，構建活躍的生態系統，然后借助API服務實現盈利。這種模式在互聯網領域早已屢見不鮮，但在AI領域卻頗具創新性，有望打破AI基礎設施市場的巨頭壟斷格局。

不得不說，DeepSeek的這一系列動作，讓人們看到了頂尖數學家在AI技術創新中的關鍵作用。在未來的AI發展中，頂尖數學家或許比頂尖顯卡更具戰略價值，他們將引領AI技術走向新的高度。

推薦大家使用程序員導航網：https://hao.panziye.com/

DeepSeek開源DeepGEMM這一舉措意義重大，對AI開發者、企業，甚至整個行業的發展，都帶來了新的機遇和思考。期待未來能看到更多基于DeepGEMM的創新應用，推動AI技術邁向新的階段。

posted @ 2025-03-01 11:15 Java潘老師閱讀(145) 評論(0) 收藏舉報

刷新頁面返回頂部

Java潘老師