AI開發(fā)系列一:概念掃盲
大模型演變與概念
人工智能
- 人工智能是一個(gè)非常廣泛的領(lǐng)域,涵蓋了多種技術(shù)和方法,包括但不限于機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、專家系統(tǒng)、機(jī)器人學(xué)等。
- 人工智能旨在創(chuàng)建能夠模擬人類智能行為的系統(tǒng)或軟件。它包括感知、推理、學(xué)習(xí)、決策和語言理解等多種能力,目標(biāo)是讓計(jì)算機(jī)能夠像人類一樣思考和行動(dòng)。
- 在人工智能領(lǐng)域,有兩個(gè)和人工智能緊密相關(guān)的概念,分別是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。
我們可以這樣簡(jiǎn)單理解三者之間的關(guān)系: 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心領(lǐng)域。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心子領(lǐng)域,它專注于開發(fā)算法和模型,使計(jì)算機(jī)能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)和改進(jìn)。簡(jiǎn)單來說,機(jī)器學(xué)習(xí)的目標(biāo)是讓計(jì)算機(jī)通過數(shù)據(jù)“學(xué)會(huì)”某種規(guī)律或模式。
機(jī)器學(xué)習(xí)又分為多種不同的算法,如監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)。
監(jiān)督學(xué)習(xí)
想象一下,你正在教一個(gè)小孩子學(xué)習(xí)如何識(shí)別蘋果和香蕉。你會(huì)怎么做呢?
你可能會(huì)拿一些蘋果和香蕉的圖片,然后指著圖片告訴孩子:“這是蘋果,這是香蕉。”慢慢地,孩子就會(huì)學(xué)會(huì),以后再看到類似的圖片時(shí),就能自己分辨出這是蘋果還是香蕉。
監(jiān)督學(xué)習(xí)就是類似的過程,只不過是在教計(jì)算機(jī)學(xué)習(xí)。
監(jiān)督學(xué)習(xí)是一種讓計(jì)算機(jī)通過“學(xué)習(xí)”來解決問題的方法。具體來說,就是給計(jì)算機(jī)很多已經(jīng)“標(biāo)注好答案”的例子,讓它從中找出規(guī)律,然后用這些規(guī)律去解決新的問題。
比如想要判斷一張圖片是貓還是狗。那么我們需要給計(jì)算機(jī)很多貓和狗的圖片,并且告訴它哪些是貓,哪些是狗。計(jì)算機(jī)學(xué)會(huì)了區(qū)分貓和狗的特征,以后再看到新的圖片時(shí),就能自己判斷出是貓還是狗。
監(jiān)督學(xué)習(xí)的兩個(gè)關(guān)鍵點(diǎn)
- 有“答案”的數(shù)據(jù):
- 就像教孩子時(shí),每張圖片都有“這是蘋果”或“這是香蕉”的答案,監(jiān)督學(xué)習(xí)需要很多已經(jīng)標(biāo)注好的數(shù)據(jù)來教計(jì)算機(jī)。
- 讓計(jì)算機(jī)自己找規(guī)律:
- 計(jì)算機(jī)不是死記硬背,而是通過這些例子找出規(guī)律。比如,它會(huì)發(fā)現(xiàn)“有長(zhǎng)尾巴的是貓,有短尾巴的是狗”,然后用這些規(guī)律去判斷新的圖片。
無監(jiān)督學(xué)習(xí)
想象一下,你給一個(gè)小孩子一堆玩具,但沒有告訴他這些玩具的名字或者分類方式。孩子自己會(huì)去觀察這些玩具,把它們分成幾組,比如把所有的小汽車放在一起,把所有的洋娃娃放在一起,或者把所有紅色的玩具放在一起。孩子是根據(jù)自己的觀察和判斷來分組的,而不是按照別人告訴他的規(guī)則。
無監(jiān)督學(xué)習(xí)就是類似的,只不過是在讓計(jì)算機(jī)自己去發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律和結(jié)構(gòu)。
無監(jiān)督學(xué)習(xí)是一種讓計(jì)算機(jī)自己探索數(shù)據(jù)的方法。和監(jiān)督學(xué)習(xí)不同,無監(jiān)督學(xué)習(xí)沒有“正確答案”可以參考。計(jì)算機(jī)需要自己去觀察數(shù)據(jù),找出其中的模式、規(guī)律或者分組方式。
比如現(xiàn)在有一堆照片,但沒有告訴計(jì)算機(jī)照片的內(nèi)容。計(jì)算機(jī)自己觀察這些照片,比如把所有風(fēng)景照放在一起,把所有人物照放在一起。計(jì)算機(jī)自己發(fā)現(xiàn)了照片的分類方式,而不是別人告訴它的。
假設(shè)你是一家超市的老板,想了解顧客的購買習(xí)慣,但你沒有預(yù)先設(shè)定的分類方式。你可以用無監(jiān)督學(xué)習(xí)來分析顧客的購買數(shù)據(jù):顧客的購買記錄,比如買了什么商品、花了多少錢、購物的頻率等。然后讓計(jì)算機(jī)自己分析這些數(shù)據(jù),發(fā)現(xiàn)一些規(guī)律,比如把顧客分成“經(jīng)常購買生鮮的顧客”“喜歡買零食的顧客”“偶爾購物的顧客”等。在這個(gè)過程中是計(jì)算機(jī)自己發(fā)現(xiàn)了顧客的分群方式,而不是你事先告訴它的。
無監(jiān)督學(xué)習(xí)的兩個(gè)關(guān)鍵點(diǎn)
- 沒有“答案”的數(shù)據(jù):
- 和監(jiān)督學(xué)習(xí)不同,無監(jiān)督學(xué)習(xí)沒有標(biāo)注好的“正確答案”。計(jì)算機(jī)需要自己去探索數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律。
- 發(fā)現(xiàn)隱藏的結(jié)構(gòu):
- 計(jì)算機(jī)的任務(wù)是找出數(shù)據(jù)中的模式或分組方式。比如,它可能會(huì)發(fā)現(xiàn)數(shù)據(jù)中有幾個(gè)“簇”,或者某些特征之間有某種關(guān)系。
強(qiáng)化學(xué)習(xí)
想象一下,你正在教一只小狗學(xué)會(huì)“坐下”這個(gè)動(dòng)作。你會(huì)怎么做呢?每次小狗成功坐下時(shí),你就會(huì)給它一塊小零食作為獎(jiǎng)勵(lì),如果它沒有坐下,你可能就不會(huì)給獎(jiǎng)勵(lì)。慢慢地,小狗會(huì)發(fā)現(xiàn),只要它坐下,就會(huì)得到獎(jiǎng)勵(lì),于是它就會(huì)越來越頻繁地坐下。
強(qiáng)化學(xué)習(xí)就是類似的過程,只不過是在教計(jì)算機(jī)或者機(jī)器人學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)是一種讓計(jì)算機(jī)或機(jī)器人通過“試錯(cuò)”來學(xué)習(xí)的方法。它就像一個(gè)正在探索世界的小孩子,通過不斷地嘗試,看看哪些行為會(huì)得到獎(jiǎng)勵(lì),哪些行為會(huì)受到懲罰,然后根據(jù)這些反饋來調(diào)整自己的行為,最終學(xué)會(huì)如何做出最好的選擇。 小狗學(xué)會(huì)了“坐下”。
強(qiáng)化學(xué)習(xí)的三個(gè)關(guān)鍵要素
- 環(huán)境(Environment):
- 這就是小狗所處的世界,比如客廳、院子等。在強(qiáng)化學(xué)習(xí)中,環(huán)境就是計(jì)算機(jī)或機(jī)器人需要與之互動(dòng)的場(chǎng)景。
- 動(dòng)作(Action):
- 這是小狗的行為,比如坐下、跑開、叫等。在強(qiáng)化學(xué)習(xí)中,動(dòng)作是計(jì)算機(jī)或機(jī)器人可以采取的行為。
- 獎(jiǎng)勵(lì)(Reward):
- 這是小狗得到的零食或者表揚(yáng)。在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)是一個(gè)信號(hào),告訴計(jì)算機(jī)或機(jī)器人它的行為是好是壞。
強(qiáng)化學(xué)習(xí)的特點(diǎn)
- 試錯(cuò)學(xué)習(xí):
- 就像小狗通過不斷嘗試來學(xué)習(xí)坐下,強(qiáng)化學(xué)習(xí)也是通過試錯(cuò)來學(xué)習(xí)。機(jī)器人會(huì)不斷嘗試不同的動(dòng)作,看看哪些能得到獎(jiǎng)勵(lì)。
- 獎(jiǎng)勵(lì)驅(qū)動(dòng):
- 獎(jiǎng)勵(lì)是強(qiáng)化學(xué)習(xí)的核心。機(jī)器人會(huì)根據(jù)獎(jiǎng)勵(lì)信號(hào)來調(diào)整自己的行為,目標(biāo)是最大化獎(jiǎng)勵(lì)。
- 動(dòng)態(tài)調(diào)整:
- 機(jī)器人會(huì)根據(jù)每次的反饋動(dòng)態(tài)調(diào)整自己的策略。如果一個(gè)動(dòng)作總是能得到獎(jiǎng)勵(lì),它就會(huì)更多地選擇這個(gè)動(dòng)作。
機(jī)器學(xué)習(xí)常見算法是這些,在這些算法里邊,一般是從監(jiān)督學(xué)習(xí)開始
深度學(xué)習(xí)
深度學(xué)習(xí)是一種讓計(jì)算機(jī)通過“多層思考”來學(xué)習(xí)和解決問題的方法。它模仿了人腦的工作方式,就像大腦中有許多神經(jīng)元一層一層地處理信息一樣,深度學(xué)習(xí)也通過多層的“神經(jīng)網(wǎng)絡(luò)”來處理數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)中的復(fù)雜規(guī)律。
想象一下,你有一堆水果,包括蘋果、香蕉和橙子。你希望讓計(jì)算機(jī)學(xué)會(huì)區(qū)分這些水果。傳統(tǒng)的方法可能需要你手動(dòng)告訴計(jì)算機(jī)很多規(guī)則,比如“蘋果是紅色的”“香蕉是長(zhǎng)條形的”“橙子是圓形的”。但深度學(xué)習(xí)不需要這樣,它就像一個(gè)聰明的學(xué)生,自己通過觀察和學(xué)習(xí)來發(fā)現(xiàn)水果的特征。
在深度學(xué)習(xí)中,你只需要給計(jì)算機(jī)這些照片,并告訴它每張照片對(duì)應(yīng)的水果名稱(比如“這是蘋果”“這是香蕉”)。然后,計(jì)算機(jī)自己會(huì)通過多層的“思考”來學(xué)習(xí)如何區(qū)分這些水果。
多層思考
深度學(xué)習(xí)的核心是“神經(jīng)網(wǎng)絡(luò)”,它就像一個(gè)有很多層的篩子,每一層都在處理數(shù)據(jù)的一部分,逐步提取更復(fù)雜的特征。
- 第一層:計(jì)算機(jī)可能會(huì)先學(xué)會(huì)識(shí)別簡(jiǎn)單的形狀和顏色,比如“這里有圓形的東西”“這里有紅色的東西”。
- 第二層:它會(huì)進(jìn)一步組合這些簡(jiǎn)單特征,比如“這是一個(gè)紅色的圓形物體”“這是一個(gè)黃色的長(zhǎng)條物體”。
- 第三層:它會(huì)根據(jù)前面的分析,判斷出這是哪種水果,比如“這是一個(gè)蘋果”“這是一個(gè)香蕉”。
深度學(xué)習(xí)的神奇之處在于,你不需要手動(dòng)告訴計(jì)算機(jī)每一條規(guī)則,它會(huì)自己從數(shù)據(jù)中學(xué)習(xí)。比如,它可能會(huì)發(fā)現(xiàn)“蘋果通常是紅色或綠色的,表面光滑”“香蕉是黃色的,形狀細(xì)長(zhǎng)”“橙子是橙色的,表面有點(diǎn)凹凸”。
深度學(xué)習(xí)的特點(diǎn)
- 自動(dòng)學(xué)習(xí):計(jì)算機(jī)自己從數(shù)據(jù)中學(xué)習(xí)規(guī)律,不需要手動(dòng)編寫復(fù)雜的規(guī)則。
- 多層結(jié)構(gòu):通過多層的“思考”,逐步提取數(shù)據(jù)中的復(fù)雜特征。
- 強(qiáng)大的能力:深度學(xué)習(xí)可以處理非常復(fù)雜的問題,比如識(shí)別各種形狀和顏色的水果,甚至在有干擾的情況下也能正確分類。
這些都是在人工智能領(lǐng)域我們常見的一些概念和術(shù)語,以及這些這些概念之間的一些關(guān)系。
簡(jiǎn)單來說:
- 人工智能是最高層次的概念,涵蓋了所有與智能相關(guān)的技術(shù)和應(yīng)用。人工智能是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的最終目標(biāo),即通過這些技術(shù)實(shí)現(xiàn)智能化的系統(tǒng)和應(yīng)用。
- 機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的關(guān)鍵技術(shù)之一,通過數(shù)據(jù)驅(qū)動(dòng)的方法讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)和改進(jìn)。機(jī)器學(xué)習(xí)是人工智能的核心實(shí)現(xiàn)手段,為人工智能提供了學(xué)習(xí)和適應(yīng)的能力。
- 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)高級(jí)分支,專注于通過深度神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題,它為機(jī)器學(xué)習(xí)提供了更強(qiáng)大的模型和算法。
生成式人工智能
生成式人工智能(Generative Artificial Intelligence)可以理解為一種“會(huì)創(chuàng)作的AI”。它通過學(xué)習(xí)大量數(shù)據(jù)(如文字、圖片、音頻等),掌握這些數(shù)據(jù)的規(guī)律,然后像人類藝術(shù)家一樣創(chuàng)造出全新的內(nèi)容。例如:
- 寫文章:ChatGPT 可以根據(jù)你的要求生成一篇故事或郵件草稿;
- 畫圖:Midjourney 能根據(jù)“一只戴帽子的貓?jiān)谠虑蛏咸琛边@樣的描述生成一幅畫;
- 作曲:AI 可以模仿貝多芬的風(fēng)格創(chuàng)作一段音樂。
它的核心能力是模仿+創(chuàng)新——既不是完全復(fù)制已有內(nèi)容,也不是隨機(jī)亂造,而是基于學(xué)習(xí)到的模式生成合理的新內(nèi)容。
生成式AI是深度學(xué)習(xí)的“高級(jí)應(yīng)用“。
- 傳統(tǒng)深度學(xué)習(xí):主要用于“分析”任務(wù),比如人臉識(shí)別、語音轉(zhuǎn)文字;
- 生成式 AI:利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)“創(chuàng)造”,例如:
- 生成對(duì)抗網(wǎng)絡(luò)(GAN):兩個(gè) AI 互相“較量”,一個(gè)生成假圖片,另一個(gè)判斷真假,最終生成逼真內(nèi)容;
- Transformer 模型:像 ChatGPT 這類大語言模型,通過分析海量文本學(xué)會(huì)寫作。
深度學(xué)習(xí)是“學(xué)會(huì)觀察世界”,生成式 AI 則是“用學(xué)到的知識(shí)創(chuàng)作新事物”。
大模型訓(xùn)練
整體上來說,大模型的訓(xùn)練可以分為三個(gè)階段:
- 預(yù)訓(xùn)練(Pre-training)
- 監(jiān)督微調(diào)(SFT,Supervised Fine-Tuning)
- 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)
預(yù)訓(xùn)練
預(yù)訓(xùn)練是大模型的基礎(chǔ)學(xué)習(xí)階段,通過“閱讀”海量文本(如書籍、網(wǎng)頁)學(xué)習(xí)語言的通用規(guī)律,類似人類通過廣泛閱讀積累常識(shí)。
預(yù)訓(xùn)練的流程一般是這樣:
- 數(shù)據(jù)輸入:模型學(xué)習(xí)互聯(lián)網(wǎng)上的文本(如維基百科、新聞、小說),目標(biāo)是預(yù)測(cè)句子中的下一個(gè)詞。
- 學(xué)習(xí)能力:掌握語法、邏輯、簡(jiǎn)單推理(如“貓吃魚”的因果關(guān)系)。
- 結(jié)果:形成“基礎(chǔ)模型”(如GPT-3),能生成通順但可能不準(zhǔn)確的回答。
預(yù)訓(xùn)練的模型具備基礎(chǔ)能力,知識(shí)面廣,但是缺乏深度,能回答一些簡(jiǎn)單的基礎(chǔ)問題,但是知識(shí)推理能力不足。此時(shí)的大模型相當(dāng)于只會(huì)成語接龍。比如此時(shí)你問他埃菲爾鐵塔在哪里,它可能回答你故宮在哪里,而不會(huì)回答法國(guó),因?yàn)檫€缺乏推理能力。
這個(gè)階段就像我們從小所接受的基礎(chǔ)教育,語文、數(shù)學(xué)、英語、物理、化學(xué)、地理、歷史、生物等等都要學(xué)習(xí),廣泛涉獵。
監(jiān)督微調(diào)
監(jiān)督微調(diào)是在預(yù)訓(xùn)練基礎(chǔ)上,用標(biāo)注數(shù)據(jù)教模型完成具體任務(wù)(如回答問題、寫郵件)。
監(jiān)督微調(diào)的流程一般是這樣:
- 數(shù)據(jù)輸入:使用人工標(biāo)注的指令-答案 對(duì)(如“翻譯這句話:Hello→你好”)。
- 學(xué)習(xí)能力:模型學(xué)會(huì)理解指令并生成符合要求的答案。
- 結(jié)果:模型能執(zhí)行特定任務(wù)(如客服對(duì)話、法律文書生成)。
這個(gè)階段就像是我們讀大學(xué),選擇一個(gè)專業(yè)精修,大學(xué)畢業(yè)之后,我們就具備了某一個(gè)領(lǐng)域的專業(yè)能力。
基于人類反饋的強(qiáng)化學(xué)習(xí)
基于人類反饋的強(qiáng)化學(xué)習(xí)是指通過人類對(duì)答案的評(píng)分,讓模型學(xué)會(huì)生成更符合人類偏好的回答(如更安全、更禮貌)。
RLHF 的流程一般是這樣:
- 訓(xùn)練獎(jiǎng)勵(lì)模型:人類對(duì)多個(gè)答案排序(如 A 比 B 更好),模型學(xué)會(huì)預(yù)測(cè)哪些回答更受歡迎。
- 強(qiáng)化學(xué)習(xí)優(yōu)化:模型生成答案后,根據(jù)獎(jiǎng)勵(lì)模型的評(píng)分調(diào)整策略,類似“試錯(cuò)學(xué)習(xí)”。
- 結(jié)果:模型輸出更人性化(如避免偏見、減少錯(cuò)誤)。
這個(gè)就像是我們工作之后,搬磚的過程中,可能受到領(lǐng)導(dǎo)的表揚(yáng),也可能受到領(lǐng)導(dǎo)的批評(píng),這些就是反饋,在這個(gè)過程中我們學(xué)會(huì)總結(jié)經(jīng)驗(yàn),知道了如何讓自己的工作更出色,得到更多表揚(yáng)。
總結(jié)一下,這三個(gè)階段的關(guān)系就是這樣的:
| 階段 | 類比 | 目標(biāo) | 結(jié)果 |
|---|---|---|---|
| 預(yù)訓(xùn)練 | 廣泛讀書的小孩 | 掌握語言基礎(chǔ) | 能說通順的話,單但不夠?qū)I(yè) |
| SFT | 學(xué)專項(xiàng)技能(如烹飪) | 完成特定任務(wù) | 能寫郵件、解答問題 |
| RLHF | 根據(jù)反饋改進(jìn)(如試吃) | 符合人類偏好 | 回答更安全、有用、自然 |
最后再舉個(gè)簡(jiǎn)單的例子,比如我們想利用大模型訓(xùn)練一個(gè)客服,那么我們的流程可能是這樣:
-
預(yù)訓(xùn)練:模型讀遍互聯(lián)網(wǎng),學(xué)會(huì)中文語法和常見問題(如“如何退款”)。
-
SFT:用標(biāo)注數(shù)據(jù)訓(xùn)練它回答:“退款流程是:1.登錄賬號(hào)→2.提交申請(qǐng)…”。
-
RLHF:用戶給回答打分,模型學(xué)會(huì)把“請(qǐng)聯(lián)系管理員”優(yōu)化為“我?guī)湍D(zhuǎn)接人工服務(wù)”。
通過這三個(gè)階段,大模型從“書呆子”成長(zhǎng)為“專業(yè)助手”,既能理解需求,又能用人類喜歡的方式回應(yīng)。
大模型特點(diǎn)
參數(shù)規(guī)模龐大
大模型通常包含數(shù)十億至數(shù)萬億參數(shù)(如GPT-4參數(shù)達(dá)1.8萬億),遠(yuǎn)超傳統(tǒng)模型。這種規(guī)模使其具備強(qiáng)大的表征能力,能夠捕捉語言、圖像等數(shù)據(jù)中的復(fù)雜模式。例如,GPT-3通過 1750 億參數(shù)實(shí)現(xiàn)對(duì)自然語言的深度理解。
海量數(shù)據(jù)訓(xùn)練
訓(xùn)練數(shù)據(jù)量通常達(dá) TB 甚至 PB 級(jí)別,涵蓋多語言文本、圖像、音頻等多模態(tài)信息。例如,GPT-3 使用 45TB 原始數(shù)據(jù)(清洗后 570 GB),通過自監(jiān)督學(xué)習(xí)從海量數(shù)據(jù)中提煉通用知識(shí)。
高算力需求
訓(xùn)練需數(shù)百至上千 GPU 集群,耗時(shí)數(shù)周至數(shù)月。以 GPT-3 為例,需 3640 PFLOP·天的算力,相當(dāng)于 512 張 A100 GPU 連續(xù)運(yùn)行 1 個(gè)月。
涌現(xiàn)能力
當(dāng)模型規(guī)模突破臨界值(如千億參數(shù))時(shí),會(huì)突然展現(xiàn)小模型不具備的復(fù)雜能力,例如邏輯推理、跨領(lǐng)域知識(shí)融合。例如,DeepSeek 模型在參數(shù)規(guī)模擴(kuò)展后,意外展現(xiàn)出對(duì)數(shù)學(xué)難題的求解能力。
多任務(wù)泛化
單一模型可同時(shí)處理翻譯、摘要、問答等任務(wù),無需針對(duì)每項(xiàng)任務(wù)單獨(dú)設(shè)計(jì)架構(gòu)。例如,Gemini 模型能同時(shí)處理文本、圖像、音頻輸入并生成代碼。
大模型的分類
大語言模型(Large Language Models, LLMs)
大語言模型是專注于文本模態(tài)的深度學(xué)習(xí)系統(tǒng),通過海量文本數(shù)據(jù)預(yù)訓(xùn)練掌握語言規(guī)律,具備文本生成、理解、推理三大核心能力。典型代表包括 GPT 系列、DeepSeek R1、文心一言等。
大語言模型常見的應(yīng)用場(chǎng)景如下:
- 內(nèi)容生成:新聞寫作、營(yíng)銷文案、代碼自動(dòng)生成(如 GitHub Copilot);
- 智能交互:客服對(duì)話、虛擬助手(如 Siri、小愛同學(xué));
- 知識(shí)服務(wù):知識(shí)問答、文獻(xiàn)摘要、輿情分析。
由于模態(tài)單一,LLM 僅處理文本數(shù)據(jù),無法直接理解圖像、音頻等信息;同時(shí),因?yàn)?LLM 依賴訓(xùn)練數(shù)據(jù)時(shí)效,所以通常需結(jié)合 RAG(檢索增強(qiáng)生成)更新知識(shí)。
多模態(tài)模型(Large Multimodal Models, LMMs)
多模態(tài)模型是能同時(shí)處理文本、圖像、音頻、視頻等多種數(shù)據(jù)模態(tài)的 AI 系統(tǒng),通過跨模態(tài)對(duì)齊實(shí)現(xiàn)信息融合與協(xié)同推理。代表模型包括 GPT-4V、Gemini、Qwen-VL 等。
LMM 一些常見的應(yīng)用場(chǎng)景如下:
- 醫(yī)療診斷:融合 CT 影像(視覺)、病理報(bào)告(文本)、患者語音(聽覺)進(jìn)行綜合判斷;
- 智能駕駛:同步處理攝像頭畫面、雷達(dá)點(diǎn)云、導(dǎo)航指令;
- 內(nèi)容創(chuàng)作:圖文混排廣告設(shè)計(jì)、短視頻腳本生成(如字節(jié)跳動(dòng)豆包)。
總結(jié)下,LLM 和 LMM 對(duì)比如下:
| 維度 | 大語言模型(LLMs) | 多模態(tài)模型(LMMs) |
|---|---|---|
| 輸入模態(tài) | 僅文本 | 文本、圖像、音頻、視頻等 |
| 核心技術(shù) | 自注意力機(jī)制、自回歸預(yù)測(cè) | 跨模態(tài)編碼、聯(lián)合表示學(xué)習(xí) |
| 典型架構(gòu) | GPT、BERT、LLaMA | CLIP、Flamingo、GPT-4V |
| 優(yōu)勢(shì)場(chǎng)景 | 文本生成、邏輯推理 | 跨模態(tài)檢索、多感官交互 |
| 硬件需求 | 單卡可運(yùn)行7B參數(shù)模型 | 常需多卡并行處理高分辨率數(shù)據(jù) |
| 開源生態(tài) | 成熟(如LLama、DeepSeek開源版) | 仍處于早期階段(Qwen-VL 等部分開源) |
大模型的工作流程
分詞化(Tokenization)
分詞化是將原始文本拆解為模型可處理的最小語義單元(Token)的過程,其核心作用包括:
- 降維處理:將無限可能的文本組合映射到有限詞表(如 GPT-4 詞表約 10 萬 Token);
- 語義保留:通過子詞拆分處理未登錄詞(如“量子計(jì)算”拆為“量子”+“計(jì)算”);
- 跨語言統(tǒng)一:中英文混合句如“給我一個(gè) iPhone15 的測(cè)評(píng)”可拆為["給", "我", "一個(gè)", "iPhone", "15", "的", "測(cè)", "評(píng)"]。
主流分詞方法
| 方法 | 原理 | 典型模型 | 案例 |
|---|---|---|---|
| BPE(字節(jié)對(duì)編碼) | 合并高頻字符對(duì)形成子詞,逐步構(gòu)建詞表 | GPT系列、Qwen模型 | 文本"low lower" -> 合并 "lo" 和 "w" 生成 "low" |
| WordPlece | 基于合并收益公式 score=共現(xiàn)次數(shù)/(單獨(dú)出現(xiàn)次數(shù)1x次數(shù)2)選擇最優(yōu)合并對(duì) | BERT | "hugs"拆為"hug"+"s"(合并收益0.05) |
| Unlgram LM | 動(dòng)態(tài)淘汰對(duì)總概率貢獻(xiàn)最小的子詞 | T5 | 若"量子物理"概率貢獻(xiàn)率低,則保留"量子"和"物理" |
| SentencePiece | 無空格分詞,支持多語言混合處理 | Qwen、Gemini | 中文"幫我寫詩" -> ["幫","我","寫","一首","關(guān)于","量子物理","的詩"] |
中文分詞方法
中文分詞就像給句子"拆積木",讓電腦看懂漢字組合。常見的方法有這幾種:
- 基于詞典的分詞:這是最常見的分詞方法,就是根據(jù)一個(gè)預(yù)先定義好的詞典來切分句子。比如"我愛北京天安門",系統(tǒng)會(huì)先找字典里有的詞:"我"、"愛"、"北京"、"天安門",咔咔拆成四個(gè)詞。
- 基于統(tǒng)計(jì)的分詞:這種方法會(huì)考慮詞頻,即某個(gè)詞在大量文本中出現(xiàn)的頻率。如果網(wǎng)上"北京天安門"總是連在一起出現(xiàn),就算字典里沒這個(gè)詞,系統(tǒng)也會(huì)當(dāng)它是個(gè)整體,拆成"北京天安門"一個(gè)詞。
- 基于規(guī)則的分詞:這種方法會(huì)根據(jù)一些特定的規(guī)則來分詞,比如人名、地名、機(jī)構(gòu)名等的識(shí)別規(guī)則。比如遇到人名會(huì)自動(dòng)識(shí)別"張偉"是名字,地名就認(rèn)"北京市"這種固定格式,遇到"北京天安門"可能直接當(dāng)?shù)孛幚怼?/li>
- 混合分詞方法:實(shí)際應(yīng)用中會(huì)把上面幾種方法混著用。先基于詞典的分詞,剩下的用基于統(tǒng)計(jì)的分詞,遇到人名地名再用基于規(guī)則的分詞補(bǔ)刀,就跟做菜加各種調(diào)料似的。
- 子詞粒度分詞:遇到完全不認(rèn)識(shí)的新詞(比如網(wǎng)絡(luò)熱詞"栓Q"),系統(tǒng)可能會(huì)硬拆成"栓"和"Q"。就像修東西時(shí)拆零件,雖然不知道整體是啥,先拆開再說。
最后不管怎么拆,系統(tǒng)都會(huì)把每個(gè)詞換成數(shù)字編碼(就像快遞單號(hào)),電腦拿著這些號(hào)碼就能處理文本了。不過要注意,不同分詞工具就像不同的廚師,切出來的詞塊可能不太一樣,沒有絕對(duì)正確的切法,主要看用在哪里。反正核心目標(biāo)就是幫電腦理解我們說的話!
分詞的挑戰(zhàn)與優(yōu)化
- 拆分歧義:如“美國(guó)會(huì)通過法案”可能誤拆為“美/國(guó)會(huì)”;
- 解決方案:預(yù)定義規(guī)則合并專有名詞(如“美國(guó)會(huì)”整體保留)。
- 多語言混合:日語“今日の天氣很好”需切換分詞器;
- 優(yōu)化策略:多語言詞表或動(dòng)態(tài)分詞器切換。
- 專業(yè)術(shù)語處理:醫(yī)學(xué)名詞“α-突觸核蛋白”需定制詞表。
詞表映射(Vocabulary Mapping)
為什么要詞表映射
- 計(jì)算機(jī)只能計(jì)算數(shù)字,Token ID 就像快遞單號(hào),告訴系統(tǒng)每個(gè)詞塊的位置和含義。
- 模型會(huì)根據(jù)這些 ID,把詞塊轉(zhuǎn)成向量(數(shù)學(xué)里的多維數(shù)組),再做后續(xù)分析。
映射流程
- Token→ID 轉(zhuǎn)換:
每個(gè) Token 被映射為唯一整數(shù) ID(如“咖”→12768,“啡”→23579); - 詞向量嵌入:
通過 Embedding 矩陣將 ID 轉(zhuǎn)換為稠密向量(如維度 768)。
詞向量技術(shù)演進(jìn)
| 技術(shù) | 核心突破 | 應(yīng)用場(chǎng)景 | 局限性 |
|---|---|---|---|
| One-Hot | 簡(jiǎn)單獨(dú)熱編碼(如"蘋果"->[1,0,0]) | 傳統(tǒng)分類任務(wù) | 高維稀疏、無法表達(dá)語義關(guān)系 |
| Word2Vec | 通過CBOW/Skip-gram學(xué)習(xí)上下文語義(如"國(guó)王-男人+女人=王后") | 搜索引擎、推薦系統(tǒng) | 無法處理OOV詞、忽略詞序 |
| BERT | 動(dòng)態(tài)上下文編碼(如"銀行"在"存錢"與"超市"中向量不同) | 機(jī)器閱讀理解 | 計(jì)算資源消耗大 |
| FastText | 子詞拆分增強(qiáng)OOV處理(如"apple"->"ap"+"pp"+"pl"+"le") | 社交媒體文本分析 | 語義粒度較粗 |
映射中的關(guān)鍵問題
- 語義對(duì)齊:需確保相似 Token 在向量空間鄰近(如“貓”與“犬”距離小于“貓”與“汽車”);
- 多模態(tài)擴(kuò)展:圖文混合輸入時(shí),詞向量需與視覺特征對(duì)齊(如“黑貓”文本+圖像置信度加權(quán));
- 動(dòng)態(tài)更新:OpenAI O1 專業(yè)版實(shí)時(shí)掃描新詞出現(xiàn)頻率,自動(dòng)更新詞表(如“量子奶茶”超閾值即保留)。
同一個(gè)詞,不同模型編號(hào)不同:比如 BERT 和 GPT 的詞表不同,"我"的 ID 可能分別是 101 和 502。
未知詞(OOV):如果遇到詞表里沒有的詞(比如網(wǎng)絡(luò)新詞),可能會(huì)拆成子詞(Subword)或標(biāo)為 [UNK](未知符號(hào))。
大模型文本生成過程
你可以把大語言模型想象成一個(gè)玩文字接龍的AI老司機(jī),它的操作流程是這樣的:
舉個(gè)例子:
- 你開頭說:“ 設(shè)計(jì)模式圖書是”
- AI 老司機(jī)立刻接話:“程序員必備的”(它覺得這詞最可能跟上)
- 接著你把新句子拼成:“Java設(shè)計(jì)模式是Java程序員必備的”
- AI 繼續(xù)接龍:“實(shí)戰(zhàn)寶典”(現(xiàn)在句子變成“...程序員必備的實(shí)戰(zhàn)寶典”)
- 再接著它可能接:“從入門到精通全覆蓋”(甚至可能自動(dòng)優(yōu)化成更順溜的表達(dá))
老司機(jī)的接龍秘籍:
- 看菜下飯:每次只盯著當(dāng)前完整的句子(比如“設(shè)計(jì)模式圖書是XXX”),專注猜下一個(gè)最可能蹦出來的詞。
- 越寫越長(zhǎng):把新猜到的詞粘到句子屁股后面,組成更長(zhǎng)的句子,接著繼續(xù)猜下下個(gè)詞。
- 剎車條件:直到出現(xiàn)三種情況才會(huì)停:
- 憋出句號(hào)/感嘆號(hào)(自然結(jié)束)
- 遇到暗號(hào)“”(相當(dāng)于喊“停!”)
- 字?jǐn)?shù)刷滿(比如最多接 20 個(gè)詞)
為什么說它像老司機(jī)?
- 經(jīng)驗(yàn)值拉滿:它讀過全網(wǎng)海量技術(shù)文檔,知道“程序員必備”后面接“實(shí)戰(zhàn)寶典”比接“菜譜大全”更合理。
- 會(huì)自我修正:如果前面寫“Java設(shè)計(jì)模式是Java程序員必備的”,后面可能默默刪掉多余“的的”。
- 可鹽可甜:你說“寫技術(shù)推薦”它就列知識(shí)點(diǎn),你說“吹彩虹屁”它能夸“行業(yè)標(biāo)桿級(jí)著作”,全看開頭給的提示。
整個(gè)過程就像 AI 在玩超級(jí)加長(zhǎng)版文字接龍,一邊接詞一邊改稿,直到湊出一篇人模人樣的推薦文案,這就是所謂的自回歸。

浙公網(wǎng)安備 33010602011771號(hào)