你應(yīng)該懂的AI大模型（一）之淺知大模型

1、AI 大模型的訓(xùn)練過程

AI 大模型的訓(xùn)練就如同讓一名孩童從不會說話一步步培養(yǎng)成高級知識分子或者專家的過程。

第一步：收集數(shù)據(jù)，將海量的知識與文章收集起來作為學(xué)習(xí)資料教給這個孩子；
第二步：預(yù)處理：去掉數(shù)據(jù)中的低質(zhì)量的內(nèi)容，整理成教材并形成一個“圖書館”；
第三步：訓(xùn)練模型：將“孩子”（模型）放進圖書館進行學(xué)習(xí)，慢慢的“孩子”的語言能力和內(nèi)容表達越來越接近預(yù)先準備的“教材”，形成“base model”或者稱之為“uncensored model”。

這個時候的模型訓(xùn)練和使用過程中沒有經(jīng)過內(nèi)容過濾或?qū)彶椋瑳]有敏感過濾。這類模型能夠生成更加多樣化和創(chuàng)造性的文本，由于訓(xùn)練數(shù)據(jù)中可能包含社會偏見，模型輸出可能強化這些偏見，可能生成包含暴力、色情、歧視、謠言等不當內(nèi)容，帶來安全和法律風(fēng)險，但是這個時候的模型更像是一個真實的人，會罵街會說怪話。

到了這一步模型的知識量是達標的，但是很難勝任就特定的工作，比如成為醫(yī)生、律師等等，這個時候就需要對模型進行“職業(yè)培訓(xùn)”，就需要開展第四步工作。

第四步：微調(diào)模型：向“孩子”灌輸價值觀，比如“我愛我的祖國”、“醫(yī)生不能辱罵病人”。

這個過程不影響 base model 的表現(xiàn)，一個 base model 可以調(diào)出成千上萬個模型。這部分的訓(xùn)練成本并沒有那么高，基于一個好的大模型 base model 可以訓(xùn)練出自己需要的模型，被微調(diào)過的模型可以再次微調(diào)。

第五步：部署對話機器人，“孩子”已經(jīng)經(jīng)過職業(yè)培訓(xùn)了可以上崗了。

資源消耗最大的使訓(xùn)練步驟，訓(xùn)練過程可能需要上千張顯卡，但是部署使用可能只需要幾張顯卡。就像學(xué)生學(xué)習(xí)需要建一所學(xué)校，但是上班只需要一個工位一樣。

2、AI 大模型的訓(xùn)練方式

把“孩子”放進圖書館里，不去管他，可能過上一百年還是學(xué)不會書里面的內(nèi)容，因此我們要幫助建立合理的學(xué)習(xí)方法。

需要一個能讓一個“孩子”從話都不會說，到認識字、到理解書中的知識、到像人一樣去思考的一整套學(xué)習(xí)模式或者叫學(xué)習(xí)框架，Transformer 就是這樣一個框架.

Transformer 是一種基于自注意力機制的深度學(xué)習(xí)模型架構(gòu)，最初由 Vaswani 等人在 2017 年的論文《Attention is All You Need》中提出。它徹底改變了自然語言處理（NLP）領(lǐng)域，并成為許多現(xiàn)代模型（如 BERT、GPT 等）的基礎(chǔ)。

現(xiàn)在能叫得出名字的大語言模型多數(shù)都是基于Transformer這套框架訓(xùn)練的。那么問題來了，為什么使用的是一套學(xué)習(xí)框架，但是各個廠商訓(xùn)練出來的模型能力不一樣呢，這是因為各個廠商的訓(xùn)練算法不一樣，這一情況可以理解為，不同學(xué)校的孩子使用的教材是一樣的，但是受學(xué)校教學(xué)質(zhì)量的影響，教育出來的孩子也是千差萬別，目前各大廠商在卷的就是訓(xùn)練算法。

上述的內(nèi)容都是關(guān)于模型輸出質(zhì)量方面的，這是模型訓(xùn)練的最重要部分，但不是全部內(nèi)容，因為在質(zhì)量不變的情況下，模型訓(xùn)練可以無限的堆砌參數(shù)，不管是有效參數(shù)或者無效參數(shù)，只要模型持續(xù)增大，訓(xùn)練時間足夠長，你的模型質(zhì)量總能超越前一代模型。通過這種“大力出奇跡”訓(xùn)練出來的龐大模型是很難商用的，例如你訓(xùn)練需要 1000～2000 張顯卡，最后部署需要 100張顯卡，如此的成本很難推廣使用。

當前的大模型為了質(zhì)量高，進行了大量甚至巨量的訓(xùn)練，這個量一是指規(guī)模、二是指時間，規(guī)模大說明需要的顯卡多、時間多，規(guī)模大說明訓(xùn)練出的模型參數(shù)多，參數(shù)越多說明模型的規(guī)模越大，模型的規(guī)模越大說明部署的時候需要的顯卡資源越多。模型后面的參數(shù) 1B、3B，B 是指 billion。

1B（十億）參數(shù)的模型在不同精度下占用的顯存如下：

INT8（8位整型）：1B參數(shù)占用約1GB顯存。
FP16（半精度浮點）：1B參數(shù)占用約2GB顯存。
FP32（全精度浮點）：1B參數(shù)占用約4GB顯存。

因此模型訓(xùn)練不僅在卷質(zhì)量也在卷成本。

3、什么是數(shù)據(jù)蒸餾

數(shù)據(jù)蒸餾（Data Distillation）是一種從大規(guī)模數(shù)據(jù)集中提取關(guān)鍵信息，生成一個規(guī)模更小但更具代表性的合成數(shù)據(jù)集的技術(shù)。其目標是在保持模型性能的同時，顯著降低數(shù)據(jù)存儲和計算成本。

所謂“蒸餾”，是讓大模型的智慧“縮水不減質(zhì)”地轉(zhuǎn)移到小模型上的技術(shù)。它的過程可以用“老師帶學(xué)生”的方式來形象化理解。我們可以將大語言模型看作經(jīng)驗豐富的教授，而小模型則是剛?cè)腴T的學(xué)生。蒸餾的目標就是讓這個學(xué)生不需要學(xué)習(xí)所有課程，卻能掌握教授最重要的知識，并在考試，即推理和任務(wù)執(zhí)行中表現(xiàn)得幾乎一樣好。

OpenAI在說 DeepSeek蒸餾 ChatGPT 的數(shù)據(jù)。（筆者認為 DeepSeek為了省事兒蒸餾了 OpenAI數(shù)據(jù)，違背了 OpenAI的商業(yè)協(xié)議，但是這個所謂的商業(yè)協(xié)議本身就是有爭議的，原本免費的知識經(jīng)過OpenAI 之后知識就成了收費的了，OpenAI本身自己就官司纏身）

之前OpenAI、Google這樣的大公司之前的策略是“規(guī)模就是一切”，它們的盈利模式依賴于提供更強的大模型服務(wù)，而不是推廣小模型。因此，它們更愿意投入更多計算資源去訓(xùn)練更大的模型，而不是優(yōu)化小模型。并且蒸餾過程本身也是需要計算資源的，因為讓大模型生成大量高質(zhì)量數(shù)據(jù)，包括它們的推理步驟，也是一個昂貴的過程。既然都貴，那么在早期，很多團隊寧愿直接用大模型，而不是投入額外資源去蒸餾小模型。DeepSeek引入了“鏈式思考”等方式，讓小模型不僅能模仿答案，還能學(xué)會推理過程。就讓蒸餾變得更有效，因此越來越多的團隊開始采用了。

訓(xùn)練算法就像是種子，什么樣的種子能結(jié)出什么樣的果子。語料即訓(xùn)練的數(shù)據(jù)相當于是肥料，好的訓(xùn)練數(shù)據(jù)能讓訓(xùn)練事半功倍，但主要還是看訓(xùn)練算法本身。

posted @ 2025-06-14 16:07 BricheersZ 閱讀(156) 評論(0) 收藏舉報

刷新頁面返回頂部

BricheersZ

你應(yīng)該懂的AI大模型（一） 之 淺知大模型

1、AI 大模型的訓(xùn)練過程

2、AI 大模型的訓(xùn)練方式

3、什么是數(shù)據(jù)蒸餾

公告

你應(yīng)該懂的AI大模型（一）之淺知大模型