AI開發(fā)系列一：概念掃盲

大模型演變與概念

人工智能

人工智能是一個(gè)非常廣泛的領(lǐng)域，涵蓋了多種技術(shù)和方法，包括但不限于機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、專家系統(tǒng)、機(jī)器人學(xué)等。
人工智能旨在創(chuàng)建能夠模擬人類智能行為的系統(tǒng)或軟件。它包括感知、推理、學(xué)習(xí)、決策和語言理解等多種能力，目標(biāo)是讓計(jì)算機(jī)能夠像人類一樣思考和行動(dòng)。
在人工智能領(lǐng)域，有兩個(gè)和人工智能緊密相關(guān)的概念，分別是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。

我們可以這樣簡(jiǎn)單理解三者之間的關(guān)系： 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支，機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心領(lǐng)域。

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心子領(lǐng)域，它專注于開發(fā)算法和模型，使計(jì)算機(jī)能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)和改進(jìn)。簡(jiǎn)單來說，機(jī)器學(xué)習(xí)的目標(biāo)是讓計(jì)算機(jī)通過數(shù)據(jù)“學(xué)會(huì)”某種規(guī)律或模式。

機(jī)器學(xué)習(xí)又分為多種不同的算法，如監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)。

監(jiān)督學(xué)習(xí)

想象一下，你正在教一個(gè)小孩子學(xué)習(xí)如何識(shí)別蘋果和香蕉。你會(huì)怎么做呢？

你可能會(huì)拿一些蘋果和香蕉的圖片，然后指著圖片告訴孩子：“這是蘋果，這是香蕉。”慢慢地，孩子就會(huì)學(xué)會(huì)，以后再看到類似的圖片時(shí)，就能自己分辨出這是蘋果還是香蕉。

監(jiān)督學(xué)習(xí)就是類似的過程，只不過是在教計(jì)算機(jī)學(xué)習(xí)。

監(jiān)督學(xué)習(xí)是一種讓計(jì)算機(jī)通過“學(xué)習(xí)”來解決問題的方法。具體來說，就是給計(jì)算機(jī)很多已經(jīng)“標(biāo)注好答案”的例子，讓它從中找出規(guī)律，然后用這些規(guī)律去解決新的問題。

比如想要判斷一張圖片是貓還是狗。那么我們需要給計(jì)算機(jī)很多貓和狗的圖片，并且告訴它哪些是貓，哪些是狗。計(jì)算機(jī)學(xué)會(huì)了區(qū)分貓和狗的特征，以后再看到新的圖片時(shí)，就能自己判斷出是貓還是狗。

監(jiān)督學(xué)習(xí)的兩個(gè)關(guān)鍵點(diǎn)

有“答案”的數(shù)據(jù)：
- 就像教孩子時(shí)，每張圖片都有“這是蘋果”或“這是香蕉”的答案，監(jiān)督學(xué)習(xí)需要很多已經(jīng)標(biāo)注好的數(shù)據(jù)來教計(jì)算機(jī)。
讓計(jì)算機(jī)自己找規(guī)律：
- 計(jì)算機(jī)不是死記硬背，而是通過這些例子找出規(guī)律。比如，它會(huì)發(fā)現(xiàn)“有長(zhǎng)尾巴的是貓，有短尾巴的是狗”，然后用這些規(guī)律去判斷新的圖片。

無監(jiān)督學(xué)習(xí)

想象一下，你給一個(gè)小孩子一堆玩具，但沒有告訴他這些玩具的名字或者分類方式。孩子自己會(huì)去觀察這些玩具，把它們分成幾組，比如把所有的小汽車放在一起，把所有的洋娃娃放在一起，或者把所有紅色的玩具放在一起。孩子是根據(jù)自己的觀察和判斷來分組的，而不是按照別人告訴他的規(guī)則。

無監(jiān)督學(xué)習(xí)就是類似的，只不過是在讓計(jì)算機(jī)自己去發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律和結(jié)構(gòu)。

無監(jiān)督學(xué)習(xí)是一種讓計(jì)算機(jī)自己探索數(shù)據(jù)的方法。和監(jiān)督學(xué)習(xí)不同，無監(jiān)督學(xué)習(xí)沒有“正確答案”可以參考。計(jì)算機(jī)需要自己去觀察數(shù)據(jù)，找出其中的模式、規(guī)律或者分組方式。

比如現(xiàn)在有一堆照片，但沒有告訴計(jì)算機(jī)照片的內(nèi)容。計(jì)算機(jī)自己觀察這些照片，比如把所有風(fēng)景照放在一起，把所有人物照放在一起。計(jì)算機(jī)自己發(fā)現(xiàn)了照片的分類方式，而不是別人告訴它的。

假設(shè)你是一家超市的老板，想了解顧客的購買習(xí)慣，但你沒有預(yù)先設(shè)定的分類方式。你可以用無監(jiān)督學(xué)習(xí)來分析顧客的購買數(shù)據(jù)：顧客的購買記錄，比如買了什么商品、花了多少錢、購物的頻率等。然后讓計(jì)算機(jī)自己分析這些數(shù)據(jù)，發(fā)現(xiàn)一些規(guī)律，比如把顧客分成“經(jīng)常購買生鮮的顧客”“喜歡買零食的顧客”“偶爾購物的顧客”等。在這個(gè)過程中是計(jì)算機(jī)自己發(fā)現(xiàn)了顧客的分群方式，而不是你事先告訴它的。

無監(jiān)督學(xué)習(xí)的兩個(gè)關(guān)鍵點(diǎn)

沒有“答案”的數(shù)據(jù)：
- 和監(jiān)督學(xué)習(xí)不同，無監(jiān)督學(xué)習(xí)沒有標(biāo)注好的“正確答案”。計(jì)算機(jī)需要自己去探索數(shù)據(jù)，發(fā)現(xiàn)其中的規(guī)律。
發(fā)現(xiàn)隱藏的結(jié)構(gòu)：
- 計(jì)算機(jī)的任務(wù)是找出數(shù)據(jù)中的模式或分組方式。比如，它可能會(huì)發(fā)現(xiàn)數(shù)據(jù)中有幾個(gè)“簇”，或者某些特征之間有某種關(guān)系。

強(qiáng)化學(xué)習(xí)

想象一下，你正在教一只小狗學(xué)會(huì)“坐下”這個(gè)動(dòng)作。你會(huì)怎么做呢？每次小狗成功坐下時(shí)，你就會(huì)給它一塊小零食作為獎(jiǎng)勵(lì)，如果它沒有坐下，你可能就不會(huì)給獎(jiǎng)勵(lì)。慢慢地，小狗會(huì)發(fā)現(xiàn)，只要它坐下，就會(huì)得到獎(jiǎng)勵(lì)，于是它就會(huì)越來越頻繁地坐下。

強(qiáng)化學(xué)習(xí)就是類似的過程，只不過是在教計(jì)算機(jī)或者機(jī)器人學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)是一種讓計(jì)算機(jī)或機(jī)器人通過“試錯(cuò)”來學(xué)習(xí)的方法。它就像一個(gè)正在探索世界的小孩子，通過不斷地嘗試，看看哪些行為會(huì)得到獎(jiǎng)勵(lì)，哪些行為會(huì)受到懲罰，然后根據(jù)這些反饋來調(diào)整自己的行為，最終學(xué)會(huì)如何做出最好的選擇。小狗學(xué)會(huì)了“坐下”。

強(qiáng)化學(xué)習(xí)的三個(gè)關(guān)鍵要素

環(huán)境（Environment）：
- 這就是小狗所處的世界，比如客廳、院子等。在強(qiáng)化學(xué)習(xí)中，環(huán)境就是計(jì)算機(jī)或機(jī)器人需要與之互動(dòng)的場(chǎng)景。
動(dòng)作（Action）：
- 這是小狗的行為，比如坐下、跑開、叫等。在強(qiáng)化學(xué)習(xí)中，動(dòng)作是計(jì)算機(jī)或機(jī)器人可以采取的行為。
獎(jiǎng)勵(lì)（Reward）：
- 這是小狗得到的零食或者表揚(yáng)。在強(qiáng)化學(xué)習(xí)中，獎(jiǎng)勵(lì)是一個(gè)信號(hào)，告訴計(jì)算機(jī)或機(jī)器人它的行為是好是壞。

強(qiáng)化學(xué)習(xí)的特點(diǎn)

試錯(cuò)學(xué)習(xí)：
- 就像小狗通過不斷嘗試來學(xué)習(xí)坐下，強(qiáng)化學(xué)習(xí)也是通過試錯(cuò)來學(xué)習(xí)。機(jī)器人會(huì)不斷嘗試不同的動(dòng)作，看看哪些能得到獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)驅(qū)動(dòng)：
- 獎(jiǎng)勵(lì)是強(qiáng)化學(xué)習(xí)的核心。機(jī)器人會(huì)根據(jù)獎(jiǎng)勵(lì)信號(hào)來調(diào)整自己的行為，目標(biāo)是最大化獎(jiǎng)勵(lì)。
動(dòng)態(tài)調(diào)整：
- 機(jī)器人會(huì)根據(jù)每次的反饋動(dòng)態(tài)調(diào)整自己的策略。如果一個(gè)動(dòng)作總是能得到獎(jiǎng)勵(lì)，它就會(huì)更多地選擇這個(gè)動(dòng)作。

機(jī)器學(xué)習(xí)常見算法是這些，在這些算法里邊，一般是從監(jiān)督學(xué)習(xí)開始

深度學(xué)習(xí)

深度學(xué)習(xí)是一種讓計(jì)算機(jī)通過“多層思考”來學(xué)習(xí)和解決問題的方法。它模仿了人腦的工作方式，就像大腦中有許多神經(jīng)元一層一層地處理信息一樣，深度學(xué)習(xí)也通過多層的“神經(jīng)網(wǎng)絡(luò)”來處理數(shù)據(jù)，從而發(fā)現(xiàn)數(shù)據(jù)中的復(fù)雜規(guī)律。

想象一下，你有一堆水果，包括蘋果、香蕉和橙子。你希望讓計(jì)算機(jī)學(xué)會(huì)區(qū)分這些水果。傳統(tǒng)的方法可能需要你手動(dòng)告訴計(jì)算機(jī)很多規(guī)則，比如“蘋果是紅色的”“香蕉是長(zhǎng)條形的”“橙子是圓形的”。但深度學(xué)習(xí)不需要這樣，它就像一個(gè)聰明的學(xué)生，自己通過觀察和學(xué)習(xí)來發(fā)現(xiàn)水果的特征。

在深度學(xué)習(xí)中，你只需要給計(jì)算機(jī)這些照片，并告訴它每張照片對(duì)應(yīng)的水果名稱（比如“這是蘋果”“這是香蕉”）。然后，計(jì)算機(jī)自己會(huì)通過多層的“思考”來學(xué)習(xí)如何區(qū)分這些水果。

多層思考

深度學(xué)習(xí)的核心是“神經(jīng)網(wǎng)絡(luò)”，它就像一個(gè)有很多層的篩子，每一層都在處理數(shù)據(jù)的一部分，逐步提取更復(fù)雜的特征。

第一層：計(jì)算機(jī)可能會(huì)先學(xué)會(huì)識(shí)別簡(jiǎn)單的形狀和顏色，比如“這里有圓形的東西”“這里有紅色的東西”。
第二層：它會(huì)進(jìn)一步組合這些簡(jiǎn)單特征，比如“這是一個(gè)紅色的圓形物體”“這是一個(gè)黃色的長(zhǎng)條物體”。
第三層：它會(huì)根據(jù)前面的分析，判斷出這是哪種水果，比如“這是一個(gè)蘋果”“這是一個(gè)香蕉”。

深度學(xué)習(xí)的神奇之處在于，你不需要手動(dòng)告訴計(jì)算機(jī)每一條規(guī)則，它會(huì)自己從數(shù)據(jù)中學(xué)習(xí)。比如，它可能會(huì)發(fā)現(xiàn)“蘋果通常是紅色或綠色的，表面光滑”“香蕉是黃色的，形狀細(xì)長(zhǎng)”“橙子是橙色的，表面有點(diǎn)凹凸”。

深度學(xué)習(xí)的特點(diǎn)

自動(dòng)學(xué)習(xí)：計(jì)算機(jī)自己從數(shù)據(jù)中學(xué)習(xí)規(guī)律，不需要手動(dòng)編寫復(fù)雜的規(guī)則。
多層結(jié)構(gòu)：通過多層的“思考”，逐步提取數(shù)據(jù)中的復(fù)雜特征。
強(qiáng)大的能力：深度學(xué)習(xí)可以處理非常復(fù)雜的問題，比如識(shí)別各種形狀和顏色的水果，甚至在有干擾的情況下也能正確分類。

這些都是在人工智能領(lǐng)域我們常見的一些概念和術(shù)語，以及這些這些概念之間的一些關(guān)系。

簡(jiǎn)單來說：

人工智能是最高層次的概念，涵蓋了所有與智能相關(guān)的技術(shù)和應(yīng)用。人工智能是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的最終目標(biāo)，即通過這些技術(shù)實(shí)現(xiàn)智能化的系統(tǒng)和應(yīng)用。
機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的關(guān)鍵技術(shù)之一，通過數(shù)據(jù)驅(qū)動(dòng)的方法讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)和改進(jìn)。機(jī)器學(xué)習(xí)是人工智能的核心實(shí)現(xiàn)手段，為人工智能提供了學(xué)習(xí)和適應(yīng)的能力。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)高級(jí)分支，專注于通過深度神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題，它為機(jī)器學(xué)習(xí)提供了更強(qiáng)大的模型和算法。

生成式人工智能

生成式人工智能（Generative Artificial Intelligence）可以理解為一種“會(huì)創(chuàng)作的AI”。它通過學(xué)習(xí)大量數(shù)據(jù)（如文字、圖片、音頻等），掌握這些數(shù)據(jù)的規(guī)律，然后像人類藝術(shù)家一樣創(chuàng)造出全新的內(nèi)容。例如：

寫文章：ChatGPT 可以根據(jù)你的要求生成一篇故事或郵件草稿；
畫圖：Midjourney 能根據(jù)“一只戴帽子的貓?jiān)谠虑蛏咸琛边@樣的描述生成一幅畫；
作曲：AI 可以模仿貝多芬的風(fēng)格創(chuàng)作一段音樂。

它的核心能力是模仿+創(chuàng)新——既不是完全復(fù)制已有內(nèi)容，也不是隨機(jī)亂造，而是基于學(xué)習(xí)到的模式生成合理的新內(nèi)容。

生成式AI是深度學(xué)習(xí)的“高級(jí)應(yīng)用“。

傳統(tǒng)深度學(xué)習(xí)：主要用于“分析”任務(wù)，比如人臉識(shí)別、語音轉(zhuǎn)文字；
生成式 AI：利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)“創(chuàng)造”，例如：
- 生成對(duì)抗網(wǎng)絡(luò)（GAN）：兩個(gè) AI 互相“較量”，一個(gè)生成假圖片，另一個(gè)判斷真假，最終生成逼真內(nèi)容；
- Transformer 模型：像 ChatGPT 這類大語言模型，通過分析海量文本學(xué)會(huì)寫作。

深度學(xué)習(xí)是“學(xué)會(huì)觀察世界”，生成式 AI 則是“用學(xué)到的知識(shí)創(chuàng)作新事物”。

大模型訓(xùn)練

整體上來說，大模型的訓(xùn)練可以分為三個(gè)階段：

預(yù)訓(xùn)練（Pre-training）
監(jiān)督微調(diào)（SFT，Supervised Fine-Tuning）
基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF，Reinforcement Learning from Human Feedback）

預(yù)訓(xùn)練

預(yù)訓(xùn)練是大模型的基礎(chǔ)學(xué)習(xí)階段，通過“閱讀”海量文本（如書籍、網(wǎng)頁）學(xué)習(xí)語言的通用規(guī)律，類似人類通過廣泛閱讀積累常識(shí)。

預(yù)訓(xùn)練的流程一般是這樣：

數(shù)據(jù)輸入：模型學(xué)習(xí)互聯(lián)網(wǎng)上的文本（如維基百科、新聞、小說），目標(biāo)是預(yù)測(cè)句子中的下一個(gè)詞。
學(xué)習(xí)能力：掌握語法、邏輯、簡(jiǎn)單推理（如“貓吃魚”的因果關(guān)系）。
結(jié)果：形成“基礎(chǔ)模型”（如GPT-3），能生成通順但可能不準(zhǔn)確的回答。

預(yù)訓(xùn)練的模型具備基礎(chǔ)能力，知識(shí)面廣，但是缺乏深度，能回答一些簡(jiǎn)單的基礎(chǔ)問題，但是知識(shí)推理能力不足。此時(shí)的大模型相當(dāng)于只會(huì)成語接龍。比如此時(shí)你問他埃菲爾鐵塔在哪里，它可能回答你故宮在哪里，而不會(huì)回答法國(guó)，因?yàn)檫€缺乏推理能力。

這個(gè)階段就像我們從小所接受的基礎(chǔ)教育，語文、數(shù)學(xué)、英語、物理、化學(xué)、地理、歷史、生物等等都要學(xué)習(xí)，廣泛涉獵。

監(jiān)督微調(diào)

監(jiān)督微調(diào)是在預(yù)訓(xùn)練基礎(chǔ)上，用標(biāo)注數(shù)據(jù)教模型完成具體任務(wù)（如回答問題、寫郵件）。

監(jiān)督微調(diào)的流程一般是這樣：

數(shù)據(jù)輸入：使用人工標(biāo)注的指令-答案對(duì)（如“翻譯這句話：Hello→你好”）。
學(xué)習(xí)能力：模型學(xué)會(huì)理解指令并生成符合要求的答案。
結(jié)果：模型能執(zhí)行特定任務(wù)（如客服對(duì)話、法律文書生成）。

這個(gè)階段就像是我們讀大學(xué)，選擇一個(gè)專業(yè)精修，大學(xué)畢業(yè)之后，我們就具備了某一個(gè)領(lǐng)域的專業(yè)能力。

基于人類反饋的強(qiáng)化學(xué)習(xí)

基于人類反饋的強(qiáng)化學(xué)習(xí)是指通過人類對(duì)答案的評(píng)分，讓模型學(xué)會(huì)生成更符合人類偏好的回答（如更安全、更禮貌）。

RLHF 的流程一般是這樣：

訓(xùn)練獎(jiǎng)勵(lì)模型：人類對(duì)多個(gè)答案排序（如 A 比 B 更好），模型學(xué)會(huì)預(yù)測(cè)哪些回答更受歡迎。
強(qiáng)化學(xué)習(xí)優(yōu)化：模型生成答案后，根據(jù)獎(jiǎng)勵(lì)模型的評(píng)分調(diào)整策略，類似“試錯(cuò)學(xué)習(xí)”。
結(jié)果：模型輸出更人性化（如避免偏見、減少錯(cuò)誤）。

這個(gè)就像是我們工作之后，搬磚的過程中，可能受到領(lǐng)導(dǎo)的表揚(yáng)，也可能受到領(lǐng)導(dǎo)的批評(píng)，這些就是反饋，在這個(gè)過程中我們學(xué)會(huì)總結(jié)經(jīng)驗(yàn)，知道了如何讓自己的工作更出色，得到更多表揚(yáng)。

總結(jié)一下，這三個(gè)階段的關(guān)系就是這樣的：

階段	類比	目標(biāo)	結(jié)果
預(yù)訓(xùn)練	廣泛讀書的小孩	掌握語言基礎(chǔ)	能說通順的話，單但不夠?qū)I(yè)
SFT	學(xué)專項(xiàng)技能（如烹飪）	完成特定任務(wù)	能寫郵件、解答問題
RLHF	根據(jù)反饋改進(jìn)（如試吃）	符合人類偏好	回答更安全、有用、自然

最后再舉個(gè)簡(jiǎn)單的例子，比如我們想利用大模型訓(xùn)練一個(gè)客服，那么我們的流程可能是這樣：

預(yù)訓(xùn)練：模型讀遍互聯(lián)網(wǎng)，學(xué)會(huì)中文語法和常見問題（如“如何退款”）。
SFT：用標(biāo)注數(shù)據(jù)訓(xùn)練它回答：“退款流程是：1.登錄賬號(hào)→2.提交申請(qǐng)…”。
RLHF：用戶給回答打分，模型學(xué)會(huì)把“請(qǐng)聯(lián)系管理員”優(yōu)化為“我?guī)湍D(zhuǎn)接人工服務(wù)”。

通過這三個(gè)階段，大模型從“書呆子”成長(zhǎng)為“專業(yè)助手”，既能理解需求，又能用人類喜歡的方式回應(yīng)。

大模型特點(diǎn)

參數(shù)規(guī)模龐大

大模型通常包含數(shù)十億至數(shù)萬億參數(shù)（如GPT-4參數(shù)達(dá)1.8萬億），遠(yuǎn)超傳統(tǒng)模型。這種規(guī)模使其具備強(qiáng)大的表征能力，能夠捕捉語言、圖像等數(shù)據(jù)中的復(fù)雜模式。例如，GPT-3通過 1750 億參數(shù)實(shí)現(xiàn)對(duì)自然語言的深度理解。

海量數(shù)據(jù)訓(xùn)練

訓(xùn)練數(shù)據(jù)量通常達(dá) TB 甚至 PB 級(jí)別，涵蓋多語言文本、圖像、音頻等多模態(tài)信息。例如，GPT-3 使用 45TB 原始數(shù)據(jù)（清洗后 570 GB），通過自監(jiān)督學(xué)習(xí)從海量數(shù)據(jù)中提煉通用知識(shí)。

高算力需求

訓(xùn)練需數(shù)百至上千 GPU 集群，耗時(shí)數(shù)周至數(shù)月。以 GPT-3 為例，需 3640 PFLOP·天的算力，相當(dāng)于 512 張 A100 GPU 連續(xù)運(yùn)行 1 個(gè)月。

涌現(xiàn)能力

當(dāng)模型規(guī)模突破臨界值（如千億參數(shù)）時(shí)，會(huì)突然展現(xiàn)小模型不具備的復(fù)雜能力，例如邏輯推理、跨領(lǐng)域知識(shí)融合。例如，DeepSeek 模型在參數(shù)規(guī)模擴(kuò)展后，意外展現(xiàn)出對(duì)數(shù)學(xué)難題的求解能力。

多任務(wù)泛化

單一模型可同時(shí)處理翻譯、摘要、問答等任務(wù)，無需針對(duì)每項(xiàng)任務(wù)單獨(dú)設(shè)計(jì)架構(gòu)。例如，Gemini 模型能同時(shí)處理文本、圖像、音頻輸入并生成代碼。

大模型的分類

大語言模型（Large Language Models, LLMs）

大語言模型是專注于文本模態(tài)的深度學(xué)習(xí)系統(tǒng)，通過海量文本數(shù)據(jù)預(yù)訓(xùn)練掌握語言規(guī)律，具備文本生成、理解、推理三大核心能力。典型代表包括 GPT 系列、DeepSeek R1、文心一言等。

大語言模型常見的應(yīng)用場(chǎng)景如下：

內(nèi)容生成：新聞寫作、營(yíng)銷文案、代碼自動(dòng)生成（如 GitHub Copilot）；
智能交互：客服對(duì)話、虛擬助手（如 Siri、小愛同學(xué)）；
知識(shí)服務(wù)：知識(shí)問答、文獻(xiàn)摘要、輿情分析。

由于模態(tài)單一，LLM 僅處理文本數(shù)據(jù)，無法直接理解圖像、音頻等信息；同時(shí)，因?yàn)?LLM 依賴訓(xùn)練數(shù)據(jù)時(shí)效，所以通常需結(jié)合 RAG（檢索增強(qiáng)生成）更新知識(shí)。

多模態(tài)模型（Large Multimodal Models, LMMs）

多模態(tài)模型是能同時(shí)處理文本、圖像、音頻、視頻等多種數(shù)據(jù)模態(tài)的 AI 系統(tǒng)，通過跨模態(tài)對(duì)齊實(shí)現(xiàn)信息融合與協(xié)同推理。代表模型包括 GPT-4V、Gemini、Qwen-VL 等。

LMM 一些常見的應(yīng)用場(chǎng)景如下：

醫(yī)療診斷：融合 CT 影像（視覺）、病理報(bào)告（文本）、患者語音（聽覺）進(jìn)行綜合判斷；
智能駕駛：同步處理攝像頭畫面、雷達(dá)點(diǎn)云、導(dǎo)航指令；
內(nèi)容創(chuàng)作：圖文混排廣告設(shè)計(jì)、短視頻腳本生成（如字節(jié)跳動(dòng)豆包）。

總結(jié)下，LLM 和 LMM 對(duì)比如下：

維度	大語言模型（LLMs）	多模態(tài)模型（LMMs）
輸入模態(tài)	僅文本	文本、圖像、音頻、視頻等
核心技術(shù)	自注意力機(jī)制、自回歸預(yù)測(cè)	跨模態(tài)編碼、聯(lián)合表示學(xué)習(xí)
典型架構(gòu)	GPT、BERT、LLaMA	CLIP、Flamingo、GPT-4V
優(yōu)勢(shì)場(chǎng)景	文本生成、邏輯推理	跨模態(tài)檢索、多感官交互
硬件需求	單卡可運(yùn)行7B參數(shù)模型	常需多卡并行處理高分辨率數(shù)據(jù)
開源生態(tài)	成熟（如LLama、DeepSeek開源版）	仍處于早期階段（Qwen-VL 等部分開源）

大模型的工作流程

分詞化（Tokenization）

分詞化是將原始文本拆解為模型可處理的最小語義單元（Token）的過程，其核心作用包括：

降維處理：將無限可能的文本組合映射到有限詞表（如 GPT-4 詞表約 10 萬 Token）；
語義保留：通過子詞拆分處理未登錄詞（如“量子計(jì)算”拆為“量子”+“計(jì)算”）；
跨語言統(tǒng)一：中英文混合句如“給我一個(gè) iPhone15 的測(cè)評(píng)”可拆為["給", "我", "一個(gè)", "iPhone", "15", "的", "測(cè)", "評(píng)"]。

主流分詞方法

方法	原理	典型模型	案例
BPE（字節(jié)對(duì)編碼）	合并高頻字符對(duì)形成子詞，逐步構(gòu)建詞表	GPT系列、Qwen模型	文本"low lower" -> 合并 "lo" 和 "w" 生成 "low"
WordPlece	基于合并收益公式 score=共現(xiàn)次數(shù)/（單獨(dú)出現(xiàn)次數(shù)1x次數(shù)2）選擇最優(yōu)合并對(duì)	BERT	"hugs"拆為"hug"+"s"(合并收益0.05)
Unlgram LM	動(dòng)態(tài)淘汰對(duì)總概率貢獻(xiàn)最小的子詞	T5	若"量子物理"概率貢獻(xiàn)率低，則保留"量子"和"物理"
SentencePiece	無空格分詞，支持多語言混合處理	Qwen、Gemini	中文"幫我寫詩" -> ["幫"，"我"，"寫"，"一首"，"關(guān)于"，"量子物理"，"的詩"]

中文分詞方法

中文分詞就像給句子"拆積木"，讓電腦看懂漢字組合。常見的方法有這幾種：

基于詞典的分詞：這是最常見的分詞方法，就是根據(jù)一個(gè)預(yù)先定義好的詞典來切分句子。比如"我愛北京天安門"，系統(tǒng)會(huì)先找字典里有的詞："我"、"愛"、"北京"、"天安門"，咔咔拆成四個(gè)詞。
基于統(tǒng)計(jì)的分詞：這種方法會(huì)考慮詞頻，即某個(gè)詞在大量文本中出現(xiàn)的頻率。如果網(wǎng)上"北京天安門"總是連在一起出現(xiàn)，就算字典里沒這個(gè)詞，系統(tǒng)也會(huì)當(dāng)它是個(gè)整體，拆成"北京天安門"一個(gè)詞。
基于規(guī)則的分詞：這種方法會(huì)根據(jù)一些特定的規(guī)則來分詞，比如人名、地名、機(jī)構(gòu)名等的識(shí)別規(guī)則。比如遇到人名會(huì)自動(dòng)識(shí)別"張偉"是名字，地名就認(rèn)"北京市"這種固定格式，遇到"北京天安門"可能直接當(dāng)?shù)孛幚怼?/li>
混合分詞方法：實(shí)際應(yīng)用中會(huì)把上面幾種方法混著用。先基于詞典的分詞，剩下的用基于統(tǒng)計(jì)的分詞，遇到人名地名再用基于規(guī)則的分詞補(bǔ)刀，就跟做菜加各種調(diào)料似的。
子詞粒度分詞：遇到完全不認(rèn)識(shí)的新詞（比如網(wǎng)絡(luò)熱詞"栓Q"），系統(tǒng)可能會(huì)硬拆成"栓"和"Q"。就像修東西時(shí)拆零件，雖然不知道整體是啥，先拆開再說。

最后不管怎么拆，系統(tǒng)都會(huì)把每個(gè)詞換成數(shù)字編碼（就像快遞單號(hào)），電腦拿著這些號(hào)碼就能處理文本了。不過要注意，不同分詞工具就像不同的廚師，切出來的詞塊可能不太一樣，沒有絕對(duì)正確的切法，主要看用在哪里。反正核心目標(biāo)就是幫電腦理解我們說的話！

分詞的挑戰(zhàn)與優(yōu)化

拆分歧義：如“美國(guó)會(huì)通過法案”可能誤拆為“美/國(guó)會(huì)”；
- 解決方案：預(yù)定義規(guī)則合并專有名詞（如“美國(guó)會(huì)”整體保留）。
多語言混合：日語“今日の天氣很好”需切換分詞器；
- 優(yōu)化策略：多語言詞表或動(dòng)態(tài)分詞器切換。
專業(yè)術(shù)語處理：醫(yī)學(xué)名詞“α-突觸核蛋白”需定制詞表。

詞表映射（Vocabulary Mapping）

為什么要詞表映射

計(jì)算機(jī)只能計(jì)算數(shù)字，Token ID 就像快遞單號(hào)，告訴系統(tǒng)每個(gè)詞塊的位置和含義。
模型會(huì)根據(jù)這些 ID，把詞塊轉(zhuǎn)成向量（數(shù)學(xué)里的多維數(shù)組），再做后續(xù)分析。

映射流程

Token→ID 轉(zhuǎn)換：
每個(gè) Token 被映射為唯一整數(shù) ID（如“咖”→12768，“啡”→23579）；
詞向量嵌入：
通過 Embedding 矩陣將 ID 轉(zhuǎn)換為稠密向量（如維度 768）。

詞向量技術(shù)演進(jìn)

技術(shù)	核心突破	應(yīng)用場(chǎng)景	局限性
One-Hot	簡(jiǎn)單獨(dú)熱編碼（如"蘋果"->[1,0,0]）	傳統(tǒng)分類任務(wù)	高維稀疏、無法表達(dá)語義關(guān)系
Word2Vec	通過CBOW/Skip-gram學(xué)習(xí)上下文語義（如"國(guó)王-男人+女人=王后"）	搜索引擎、推薦系統(tǒng)	無法處理OOV詞、忽略詞序
BERT	動(dòng)態(tài)上下文編碼（如"銀行"在"存錢"與"超市"中向量不同）	機(jī)器閱讀理解	計(jì)算資源消耗大
FastText	子詞拆分增強(qiáng)OOV處理（如"apple"->"ap"+"pp"+"pl"+"le"）	社交媒體文本分析	語義粒度較粗

映射中的關(guān)鍵問題

語義對(duì)齊：需確保相似 Token 在向量空間鄰近（如“貓”與“犬”距離小于“貓”與“汽車”）；
多模態(tài)擴(kuò)展：圖文混合輸入時(shí)，詞向量需與視覺特征對(duì)齊（如“黑貓”文本+圖像置信度加權(quán)）；
動(dòng)態(tài)更新：OpenAI O1 專業(yè)版實(shí)時(shí)掃描新詞出現(xiàn)頻率，自動(dòng)更新詞表（如“量子奶茶”超閾值即保留）。

同一個(gè)詞，不同模型編號(hào)不同：比如 BERT 和 GPT 的詞表不同，"我"的 ID 可能分別是 101 和 502。

未知詞（OOV）：如果遇到詞表里沒有的詞（比如網(wǎng)絡(luò)新詞），可能會(huì)拆成子詞（Subword）或標(biāo)為 [UNK]（未知符號(hào)）。

大模型文本生成過程

你可以把大語言模型想象成一個(gè)玩文字接龍的AI老司機(jī)，它的操作流程是這樣的：

舉個(gè)例子：

你開頭說：“ 設(shè)計(jì)模式圖書是”
AI 老司機(jī)立刻接話：“程序員必備的”（它覺得這詞最可能跟上）
接著你把新句子拼成：“Java設(shè)計(jì)模式是Java程序員必備的”
AI 繼續(xù)接龍：“實(shí)戰(zhàn)寶典”（現(xiàn)在句子變成“...程序員必備的實(shí)戰(zhàn)寶典”）
再接著它可能接：“從入門到精通全覆蓋”（甚至可能自動(dòng)優(yōu)化成更順溜的表達(dá)）

老司機(jī)的接龍秘籍：

看菜下飯：每次只盯著當(dāng)前完整的句子（比如“設(shè)計(jì)模式圖書是XXX”），專注猜下一個(gè)最可能蹦出來的詞。
越寫越長(zhǎng)：把新猜到的詞粘到句子屁股后面，組成更長(zhǎng)的句子，接著繼續(xù)猜下下個(gè)詞。
剎車條件：直到出現(xiàn)三種情況才會(huì)停：
- 憋出句號(hào)/感嘆號(hào)（自然結(jié)束）
- 遇到暗號(hào)“”（相當(dāng)于喊“停！”）
- 字?jǐn)?shù)刷滿（比如最多接 20 個(gè)詞）

為什么說它像老司機(jī)？

經(jīng)驗(yàn)值拉滿：它讀過全網(wǎng)海量技術(shù)文檔，知道“程序員必備”后面接“實(shí)戰(zhàn)寶典”比接“菜譜大全”更合理。
會(huì)自我修正：如果前面寫“Java設(shè)計(jì)模式是Java程序員必備的”，后面可能默默刪掉多余“的的”。
可鹽可甜：你說“寫技術(shù)推薦”它就列知識(shí)點(diǎn)，你說“吹彩虹屁”它能夸“行業(yè)標(biāo)桿級(jí)著作”，全看開頭給的提示。

整個(gè)過程就像 AI 在玩超級(jí)加長(zhǎng)版文字接龍，一邊接詞一邊改稿，直到湊出一篇人模人樣的推薦文案，這就是所謂的自回歸。

posted @ 2025-03-28 01:07 DOONDO 閱讀(262) 評(píng)論(0) 收藏舉報(bào)

刷新頁面返回頂部

DOONDO