你應(yīng)該懂的AI大模型(一) 之 淺知大模型
1、AI 大模型的訓(xùn)練過程
AI 大模型的訓(xùn)練就如同讓一名孩童從不會說話一步步培養(yǎng)成高級知識分子或者專家的過程。
- 第一步:收集數(shù)據(jù),將海量的知識與文章收集起來作為學(xué)習(xí)資料教給這個孩子;
- 第二步:預(yù)處理:去掉數(shù)據(jù)中的低質(zhì)量的內(nèi)容,整理成教材并形成一個“圖書館”;
- 第三步:訓(xùn)練模型:將“孩子”(模型)放進圖書館進行學(xué)習(xí),慢慢的“孩子”的語言能力和內(nèi)容表達越來越接近預(yù)先準備的“教材”,形成“base model”或者稱之為“uncensored model”。
這個時候的模型訓(xùn)練和使用過程中沒有經(jīng)過內(nèi)容過濾或?qū)彶椋瑳]有敏感過濾。這類模型能夠生成更加多樣化和創(chuàng)造性的文本,由于訓(xùn)練數(shù)據(jù)中可能包含社會偏見,模型輸出可能強化這些偏見,可能生成包含暴力、色情、歧視、謠言等不當內(nèi)容,帶來安全和法律風(fēng)險,但是這個時候的模型更像是一個真實的人,會罵街會說怪話。
到了這一步模型的知識量是達標的,但是很難勝任就特定的工作,比如成為醫(yī)生、律師等等,這個時候就需要對模型進行“職業(yè)培訓(xùn)”,就需要開展第四步工作。
- 第四步:微調(diào)模型:向“孩子”灌輸價值觀,比如“我愛我的祖國”、“醫(yī)生不能辱罵病人”。
這個過程不影響 base model 的表現(xiàn),一個 base model 可以調(diào)出成千上萬個模型。 這部分的訓(xùn)練成本并沒有那么高,基于一個好的大模型 base model 可以訓(xùn)練出自己需要的模型,被微調(diào)過的模型可以再次微調(diào)。
- 第五步:部署對話機器人,“孩子”已經(jīng)經(jīng)過職業(yè)培訓(xùn)了可以上崗了。
資源消耗最大的使訓(xùn)練步驟,訓(xùn)練過程可能需要上千張顯卡,但是部署使用可能只需要幾張顯卡。就像學(xué)生學(xué)習(xí)需要建一所學(xué)校,但是上班只需要一個工位一樣。
2、AI 大模型的訓(xùn)練方式
把“孩子”放進圖書館里,不去管他,可能過上一百年還是學(xué)不會書里面的內(nèi)容,因此我們要幫助建立合理的學(xué)習(xí)方法。
需要一個能讓一個“孩子”從話都不會說,到認識字、到理解書中的知識、到像人一樣去思考的一整套學(xué)習(xí)模式或者叫學(xué)習(xí)框架,Transformer 就是這樣一個框架.
Transformer 是一種基于自注意力機制的深度學(xué)習(xí)模型架構(gòu),最初由 Vaswani 等人在 2017 年的論文《Attention is All You Need》中提出。它徹底改變了自然語言處理(NLP)領(lǐng)域,并成為許多現(xiàn)代模型(如 BERT、GPT 等)的基礎(chǔ)。
現(xiàn)在能叫得出名字的大語言模型多數(shù)都是基于Transformer這套框架訓(xùn)練的。那么問題來了,為什么使用的是一套學(xué)習(xí)框架,但是各個廠商訓(xùn)練出來的模型能力不一樣呢,這是因為各個廠商的訓(xùn)練算法不一樣,這一情況可以理解為,不同學(xué)校的孩子使用的教材是一樣的,但是受學(xué)校教學(xué)質(zhì)量的影響,教育出來的孩子也是千差萬別,目前各大廠商在卷的就是訓(xùn)練算法。
上述的內(nèi)容都是關(guān)于模型輸出質(zhì)量方面的,這是模型訓(xùn)練的最重要部分,但不是全部內(nèi)容,因為在質(zhì)量不變的情況下,模型訓(xùn)練可以無限的堆砌參數(shù),不管是有效參數(shù)或者無效參數(shù),只要模型持續(xù)增大,訓(xùn)練時間足夠長,你的模型質(zhì)量總能超越前一代模型。通過這種“大力出奇跡”訓(xùn)練出來的龐大模型是很難商用的,例如你訓(xùn)練需要 1000~2000 張顯卡,最后部署需要 100張顯卡,如此的成本很難推廣使用。
當前的大模型為了質(zhì)量高,進行了大量甚至巨量的訓(xùn)練,這個量一是指規(guī)模、二是指時間,規(guī)模大說明需要的顯卡多、時間多,規(guī)模大說明訓(xùn)練出的模型參數(shù)多,參數(shù)越多說明模型的規(guī)模越大,模型的規(guī)模越大說明部署的時候需要的顯卡資源越多。模型后面的參數(shù) 1B、3B,B 是指 billion。
1B(十億)參數(shù)的模型在不同精度下占用的顯存如下:
-
INT8(8位整型):1B參數(shù)占用約1GB顯存。
-
FP16(半精度浮點):1B參數(shù)占用約2GB顯存。
-
FP32(全精度浮點):1B參數(shù)占用約4GB顯存。
因此模型訓(xùn)練不僅在卷質(zhì)量也在卷成本。
3、什么是數(shù)據(jù)蒸餾
數(shù)據(jù)蒸餾(Data Distillation)是一種從大規(guī)模數(shù)據(jù)集中提取關(guān)鍵信息,生成一個規(guī)模更小但更具代表性的合成數(shù)據(jù)集的技術(shù)。其目標是在保持模型性能的同時,顯著降低數(shù)據(jù)存儲和計算成本。
所謂“蒸餾”,是讓大模型的智慧“縮水不減質(zhì)”地轉(zhuǎn)移到小模型上的技術(shù)。它的過程可以用“老師帶學(xué)生”的方式來形象化理解。我們可以將大語言模型看作經(jīng)驗豐富的教授,而小模型則是剛?cè)腴T的學(xué)生。蒸餾的目標就是讓這個學(xué)生不需要學(xué)習(xí)所有課程,卻能掌握教授最重要的知識,并在考試,即推理和任務(wù)執(zhí)行中表現(xiàn)得幾乎一樣好。
OpenAI在說 DeepSeek蒸餾 ChatGPT 的數(shù)據(jù)。(筆者認為 DeepSeek為了省事兒蒸餾了 OpenAI數(shù)據(jù),違背了 OpenAI的商業(yè)協(xié)議,但是這個所謂的商業(yè)協(xié)議本身就是有爭議的,原本免費的知識經(jīng)過OpenAI 之后知識就成了收費的了,OpenAI本身自己就官司纏身)
之前OpenAI、Google這樣的大公司之前的策略是“規(guī)模就是一切”,它們的盈利模式依賴于提供更強的大模型服務(wù),而不是推廣小模型。因此,它們更愿意投入更多計算資源去訓(xùn)練更大的模型,而不是優(yōu)化小模型。并且蒸餾過程本身也是需要計算資源的,因為讓大模型生成大量高質(zhì)量數(shù)據(jù),包括它們的推理步驟,也是一個昂貴的過程。既然都貴,那么在早期,很多團隊寧愿直接用大模型,而不是投入額外資源去蒸餾小模型。DeepSeek引入了“鏈式思考”等方式,讓小模型不僅能模仿答案,還能學(xué)會推理過程。就讓蒸餾變得更有效,因此越來越多的團隊開始采用了。
訓(xùn)練算法就像是種子,什么樣的種子能結(jié)出什么樣的果子。語料即訓(xùn)練的數(shù)據(jù)相當于是肥料,好的訓(xùn)練數(shù)據(jù)能讓訓(xùn)練事半功倍,但主要還是看訓(xùn)練算法本身。

浙公網(wǎng)安備 33010602011771號