讀大語言模型06深度學習

1. 大語言模型的奇妙歷程
1.1. 稱其“奇妙”?,源于它們展現出的非凡能力
1.2. 強調“探索”?,因為我們尚未完全解析它們與人類對話的內在機制
1.3. 定義為“歷程”?,則是因為大語言模型的發展代表了一項重大技術突破
2. 語言模型
2.1. 傳統語言學將語言視為符號處理問題,特別強調詞序
2.2. “物理符號系統”是唯一能解釋人類運用抽象概念進行交談和思考的理論框架
-
2.2.1. 詞語被視為不具有內部結構的符號,但需遵循外部邏輯規則,這些規則決定了符號如何組合及推理
-
2.2.2. 這種理論雖然頗具吸引力,但卻未能為人工智能的發展提供有效基礎
2.3. 深度學習提供了一個全新的概念框架,它以概率和學習為基礎,而非依賴符號和邏輯
-
2.3.1. 在21世紀初,自然語言模型借助具有反饋機制的循環神經網絡取得重大突破,使得先前的輸入信息能在網絡中持續傳遞
-
2.3.2. Transformer的出現才從根本上革新了自然語言處理的各個領域
-
2.3.3. 隨著大語言模型規模的擴大和訓練數據集的增長,它們在語言處理和多模態任務上的表現日益優異
-
2.3.4. 大語言模型并未接受關于詞義或句法結構的直接指導,而是通過自監督學習來掌握語義和語法規則,這一學習過程類似于兒童通過感知和體驗世界來理解詞義,而非依賴大量明確的教導
2.4. 大語言模型雖然在數字計算機上運行,但其類腦架構與傳統數字計算機有著本質區別
-
2.4.1. 大語言模型并沒有傳統意義上的程序或指令,它是由數十億個簡單的處理單元通過數萬億個不同強度的連接(稱為權重)組成的復雜網絡
-
2.4.2. 當前的大語言模型需要數千個并行工作的CPU來進行模擬運算
-
2.4.3. 展望未來,它們將在專用硬件上運行,這種硬件將更加經濟實惠,且能效更高
3. Transformer
3.1. Transformer架構于2017年問世,是一種特殊的前饋神經網絡
3.2. Transformer架構具有獨特而卓越的設計特點,它是在早期深度學習模型的基礎上演進而來的
3.3. Transformer僅通過一項自監督學習任務—預測句子中的下一個詞元,就能夠勝任多種自然語言處理任務
3.4. Transformer的出現徹底改變了人工智能領域的自然語言處理技術
3.5. 基于Transformer的BERT網絡模型是自然語言處理領域的一個里程碑,如今所有大語言模型都采用了Transformer技術
3.6. 谷歌的PaLM模型擁有5400億個連接權重,在眾多語言任務上的表現都超越了GPT-3
3.7. OpenAI的GPT-4擁有1.7萬億個權重參數,展現出更為強大的能力
3.8. 谷歌于2023年12月推出了Gemini,其性能號稱與GPT-4相當,但尚缺乏嚴格的性能測試驗證
3.9. 自注意力機制是Transformer的第二個關鍵特征,也是其成功的核心所在
-
3.9.1. 自注意力機制正是通過為詞語之間的關聯程度分配權重來實現這一功能的
-
3.9.2. Transformer的主要任務是預測輸入文本中的下一個詞元,它通過學習詞與詞之間的關系來提高預測準確率
-
3.9.2.1. 在訓練過程中,預測誤差會同時用于調整前饋網絡權重和自注意力值
-
3.9.3. 三種類型
-
3.9.3.1. 第一種用于查詢中的焦點詞
-
3.9.3.2. 第二種用于所有其他詞對查詢詞的關鍵相關性
-
3.9.3.3. 第三種是“值頭”?,用于保存每個詞的上下文信息
> 3.9.3.3.1. 查詢編碼器具有與解碼器類似的結構,并作為解碼器各層的附加輸入
4. 深度學習之源
4.1. 雖然人類在不同任務間的學習遷移能力一直為人所知,但直到大語言模型的出現,神經網絡模型才真正展現出類似的、往往超出預期的遷移學習能力
4.2. 縱觀人工智能的發展歷史,可以清晰地看到大約每25年出現一次研究高潮
4.3. 第一波浪潮—1960年
-
4.3.1. 現代機器學習的雛形可以追溯到人工智能的初期
-
4.3.2. 1961年,弗蘭克·羅森布拉特發明了感知器,這種模型通過一個包含單層可調參數的網絡從樣本中學習來對輸入進行分類
-
4.3.3. 感知器是一種簡單的單神經元模型
-
4.3.3.1. 核心要素包括單元和權重
-
4.3.4. 轉換過程被稱為非線性階躍函數,其“非線性”特性表現為輸出并非隨輸入呈直線變化
-
4.3.5. 羅森布拉特證明,只要有充足的訓練樣本,感知器就能學會對來自相同的兩個類別的新輸入進行分類
-
4.3.5.1. 前提是必須存在一組能夠解決該分類問題的權重
-
4.3.6. 感知器的局限性在于它只能進行簡單的線性分類,無法區分貓和狗這樣相似的類別
4.4. 第二波浪潮—1985年
-
4.4.1. 新一代研究者開發出了一種可以訓練多層網絡中所有層級的學習算法
-
4.4.2. 突破性進展始于在輸入層和輸出層之間添加了一層“隱藏單元”的模型,為探索多層神經網絡的潛力打開了大門
-
4.4.3. 最廣泛使用的是誤差反向傳播算法(簡稱“反向傳播”)
-
4.4.3.1. 這種算法雖然在計算機運算中非常高效,但在生物大腦中并不存在—大腦主要是通過局部誤差信號來調節突觸強度,這一點更類似于早期感知器學習算法的機制
4.5. 第三波浪潮—2010年
-
4.5.1. 第三波神經網絡架構的探索浪潮始于21世紀第二個十年
-
4.5.2. 當時,計算能力已經足以支持多層神經網絡的深度學習,這使得其在物體識別、語音識別和語言翻譯等領域取得了突破性進展
-
4.5.3. 雖然媒體將神經網絡重新定義為人工智能,但實際上它只是機器學習中一個在解決人工智能問題上特別成功的分支
-
4.5.4. 深度學習突破了傳統人工智能的目標局限,它能夠處理現實世界中充滿噪聲、不確定性和高維度的模擬信號
-
4.5.5. 傳統人工智能中非黑即白的符號和規則體系,從未能很好地適應這個充滿模糊性和不確定性的世界
-
4.5.5.1. 深度學習恰好在這兩個世界之間搭建了橋梁
4.6. 計算能力正在呈現爆發式增長,尤其是在十年前開始使用GPU后,計算能力增加了百倍,使得計算能力翻倍所需的時間縮短至原來的1/6
-
4.6.1. 隨著計算能力持續呈指數級增長,網絡規模不斷擴大,大語言模型的性能也隨之快速提升
-
4.6.2. 這種指數增長就像銀行賬戶中的復利效應:規模越大,增長越快
4.7. 雖然數字處理器的運行速度比神經元快100萬倍,但大腦通過海量的神經元數量彌補了這一劣勢
-
4.7.1. 人類大腦是一個高度并行化的系統,數十億個神經元能夠實時并行運作
-
4.7.2. 很少有算法能在規模擴大時保持如此優異的可擴展性
-
4.7.3. 如果計算能力能夠繼續保持過去70年的指數級增長趨勢,在不遠的將來,它將達到人類大腦的預估計算能力
4.8. 大腦皮質網絡最顯著的特征之一是皮質神經元之間存在循環連接
- 4.8.1. 具有反饋連接的循環神經網絡實現了網絡內部信息的循環流動
5. 深度學習網絡模型
5.1. 深度學習網絡模型之所以被稱為“深度”?,是因為其神經元單元被組織成多個層級,輸入信息需要流經多個層級才能到達輸出層
5.2. 這類網絡并非通過編程實現,而是通過學習算法處理海量數據,從而構建出內部模型
5.3. 與數字計算機直接記憶數據不同,網絡中的內部模型能夠捕捉數據之間的語義關系,比如句子中詞語之間的關聯
- 5.3.1. 在網絡內部,具有相似含義的詞會表現出相似的活動模式
6. 語言模型演變
6.1. 教會網絡模型英語單詞發音
-
6.1.1. 語言是分層級的系統:單詞發音稱為音系學;詞序稱為句法學;詞義研究稱為語義學;語句中的聲調和節奏則稱為韻律學
-
6.1.2. 與說話不同,閱讀并非人類進化獲得的能力
-
6.1.2.1. 文字是不同文化獨立發明的產物
-
6.1.2.2. 各種文字系統有著共同點:由可辨識的符號構成,通過聲音與符號的對應來表達,且詞義往往需要結合具體語境來理解
-
6.1.3. 要培養熟練的閱讀能力需要長期訓練,在這個過程中,大腦中負責視覺、聽覺、運動以及存儲語義記憶的區域會建立起新的神經連接
-
6.1.4. 文字的出現讓知識得以跨代傳承,這在此前只能依靠口耳相傳
-
6.1.5. 現代文明正是建立在這些經過千百年積累的文字知識和通過模仿傳承的技能的基礎之上
-
6.1.6. 神經網絡天然適合處理語言任務
6.2. 詞語之間存在語義友元、關聯和關系,它們構成了一個復雜的生態系統
6.3. 在大語言模型中,詞語以向量形式存在,即所謂的嵌入,這些由長數字序列組成的向量本身就包含豐富的語義信息
-
6.3.1. 大語言模型能夠從上下文中提取額外信息,包括詞序和句法標記,從而揭示子句層面上詞語和詞組之間的關系
-
6.3.2. 每個詞元都會被映射到一個高維向量空間中,這個過程被稱為“嵌入”
-
6.3.3. ”詞嵌入”?(word embedding)是一種在神經網絡模型的活動空間中,用向量來表示詞語含義的方法
6.4. 上下文長度是決定模型保持連貫性和相關性響應能力的因素之一,特別是在長對話或長文檔處理中
- 6.4.1. 如果對話或文檔超過了上下文長度,模型可能會丟失較早期的信息
7. 微調
7.1. 在完成預訓練后,模型可以通過微調提升其在特定任務上的表現
7.2. 微調是一個將在海量通用數據集上預訓練的模型調整為適應特定任務數據集的過程
7.3. 微調的主要優勢在于只需較少的數據和計算資源,就能獲得理想的性能表現
7.4. 在微調過程中,為了避免破壞模型已習得的知識和能力,只需要較少的訓練量,且對模型參數的調整幅度較小
7.5. 通過微調,通用大語言模型可以轉變為特定領域的專業模型,比如醫療、法律、會計或企業管理等專業領域的專家系統
7.6. 微調可以幫助大語言模型避免產生攻擊性言論、危險信息及其他不當行為
- 7.6.1. 這通常是通過收集相關示例,并利用微調來建立防護機制實現的
7.7. 過度微調可能會降低模型對其他查詢的響應能力
- 7.7.1. 在提升模型特定性能和避免因防護措施導致的能力“偏移”之間找到平衡點
7.8. 另一種實現防護機制的方法是在提示詞前添加包含詳細指令的隱藏提示
- 7.8.1. 這種方式無須改變模型參數,因此不會導致模型整體能力下降
8. 溫度
8.1. 當選擇概率最高的詞時,這種方式被稱為最大似然,對應較低的溫度值
8.2. 隨著溫度值的升高,模型選擇低概率詞的可能性逐漸增加
9. 神經網絡
9.1. 可擴展性是人工智能領域的重要原則,它決定了某個問題的解決方案是否能在現有計算機上實現
-
9.1.1. 可擴展性是各領域算法的關鍵特性
-
9.1.2. 隨著數字計算機性能的不斷提升,新的功能也隨之涌現
9.2. 隨著神經網絡規模的擴大,其性能持續提升
- 9.2.1. 30年前,我們既不清楚神經網絡模型的可擴展性有多強,也不知道解決實際問題需要達到怎樣的規模
9.3. 對神經網絡可擴展性的信心,主要來自靈長類動物大腦皮質擴張會帶來認知能力提升這一自然現象的啟發
- 9.3.1. 事實證明,神經網絡確實具有良好的可擴展性
9.4. 大腦的大小與體重密切相關
- 9.4.1. 與其他哺乳動物相比,靈長類動物在相同體重下擁有更大的大腦,特別是大腦皮質顯著擴張
9.5. 與大腦中突觸的數量無關,因為突觸可以并行運作
-
9.5.1. 這也解釋了為什么生物大腦只依靠運行速度僅為硅芯片百萬分之一的神經元和突觸,也能在毫秒級別完成信息處理
-
9.5.2. 如此高效的計算特性在算法世界中實屬罕見,很少有算法能在規模擴大的同時保持計算效率
-
9.5.3. 隨著計算能力持續呈指數級增長,在可預見的未來,它終將達到與人類大腦相當的計算水平
浙公網安備 33010602011771號