讀大語言模型08計算基礎設施

1. 計算基礎設施
1.1. 人工智能專家系統在20世紀70年代風靡一時
-
1.1.1. 基于規則的程序,目的是獲取特定領域的專家知識
-
1.1.2. 每個專家系統都需要從領域專家處提取規則,并將其轉化為特定的邏輯程序
-
1.1.3. 開發針對特定應用的專家系統不僅耗時長,而且需要投入大量人力
1.2. 專家系統雖然能夠處理一些簡單問題,但從專家那里提取規則的過程比預想的要復雜得多
-
1.2.1. 事后回看,專家系統和連接機器之所以未能實現預期目標,主要在于現實世界往往是灰色地帶,很難用簡單的黑白邏輯來應對
-
1.2.2. 神經網絡模型則能夠通過學習數據中的概率分布,并將這些信息整合起來,從而做出準確的預測,更好地處理這種不確定性
1.3. 淘金熱來臨時,不要去淘金,要賣鏟子。
-
1.3.1. 商業箴言
-
1.3.2. 開發大語言模型的科技企業市值攀升30%,而為人工智能訓練提供核心算力的英偉達表現更為亮眼,其股價暴漲600%,市值從2730億美元飆升至3萬億美元以上
-
1.3.3. 在AI熱潮中,賣GPU。?
1.4. 全球科技巨頭運營著大量數據中心,這些現代化倉庫內布滿服務器機架
-
1.4.1. 雖然傳統CPU仍占主導,但GPU與專用AI芯片的占比正快速提升
-
1.4.2. 為應對AI算力需求,專業AI數據中心如雨后春筍般涌現
-
1.4.3. AI計算目前占全球數據中心總耗電量的2%,預計2025年將升至10%
1.5. 大語言模型雖然前景廣闊,但在商業應用中必須謹慎部署
-
1.5.1. 企業需要建立完善的管理和監督機制,防止模型生成誤導性或不當內容,確保隱私安全,并明確區分人工決策邊界
-
1.5.2. 大語言模型的應用應當融入企業整體戰略框架,重視并尊重人類的見解與專業技能,確保技術輔助而非主導決策過程
1.6. 人工智能技術在不同企業間的采用率存在顯著差異
-
1.6.1. OpenAI、谷歌和Meta這樣的科技前沿公司,在內部已經廣泛部署了由它們開發的先進語言模型
-
1.6.2. 位于硅谷之外的傳統行業企業,步伐相對較慢
1.7. 企業使用ChatGPT存在潛在風險,因為系統會儲存用戶輸入的所有數據以優化性能
- 1.7.1. 考慮到企業機密可能外泄,部分公司已采取預防措施,明令禁止員工在工作中使用ChatGPT
1.8. 相較于從零開始訓練一個基礎大語言模型所需的巨大成本,利用自有數據對現有模型進行微調不僅顯著降低了費用,而且加速了模型適應特定業務需求的過程
-
1.8.1. 在整個過程中,所有用于訓練的專有數據都被嚴格保存在一個安全的環境中,確保數據隱私和安全
-
1.8.2. 這項服務的成功是顯而易見的:過去需要數小時才能完成的表格處理與報告生成任務,現在只需幾分鐘即可高效完成
-
1.8.3. 對那些擁有銷售、市場營銷、人力資源、會計、質量保證、法律,以及信息等部門的大公司而言,這些部門日常需要處理大量電子郵件、備忘錄、報告及摘要,而現在它們可以變得更高效
-
1.8.4. 隨著這項技術的廣泛應用,它催生了許多未曾預見的應用場景和影響
1.9. 德勤和埃森哲等咨詢公司通過為企業客戶提供生成式人工智能的咨詢服務,實現了收入的顯著增長
1.10. 人工智能技術要真正普及到數以萬計的中小企業仍需時日,這些企業往往缺乏強大的研發力量和信息技術團隊
- 1.10.1. 培養專業的人工智能人才,建立完善的安全管控體系以防范風險和濫用,同時還需要對現有的辦公流程進行重組
1.11. 盡管人工智能的研究發展日新月異,但企業的實際運轉步伐卻往往受制于煩瑣的決策流程
-
1.11.1. 無論是初次培訓還是持續教育,都是一個耗時的過程
-
1.11.2. 具備人工智能背景的MBA畢業生成為眾多公司競相爭取的人才資源
-
1.11.3. 對在職人員來說,大型開放式網絡課程(MOOC)提供了便捷的學習途徑
1.12. 相較于互聯網革命,人工智能革命對企業內部結構的影響更為深遠,企業運營模式可能會因此發生根本性的變革
-
1.12.1. 隨著訓練技術的不斷進步,更優質的數據集和更高效的算法的應用,小型模型的性能已開始接近大型模型的水平
-
1.12.2. 這種技術進步為中小企業創造了機會,使得它們無須依賴龐大的資源基礎,就能夠在本地環境中實施和利用先進的大語言模型技術
1.13. 當前人工智能技術雖在局部領域取得突破性進展,但要實現規模化應用并對經濟產生深遠影響,仍需假以時日
-
1.13.1. 人工智能作為一項革命性的通用技術,其全面推廣不僅需要企業投入巨額資金,還需要對員工進行系統而深入的培訓
-
1.13.2. 正因為人工智能具有前所未有的應用廣度和滲透力,其最終帶來的收益將會是極其可觀的
2. 人工智能的研發
2.1. 20世紀的數字計算與通信技術的發明,為21世紀的信息爆炸奠定了基礎
2.2. 作為一家獲得合法壟斷地位的企業,AT&T利用其長途電話業務部門的豐厚利潤,持續為貝爾實驗室提供穩定的資金支持
- 2.2.1. 1984年,在政府的推動下,AT&T最終被拆分為8家獨立運營的公司,這次拆分雖然從經濟角度獲得了成功,但卻在創新領域造成了難以彌補的損失
2.3. 貝爾實驗室
-
2.3.1. AT&T(美國電話電報公司)旗下的貝爾實驗室的物理學家約翰·巴丁、沃爾特·布拉頓和威廉·肖克利共同發明了晶體管,這一創新最終取代了真空管
-
2.3.2. 在貝爾實驗室,克勞德·香農提出了信息論,這一理論徹底改變了數字通信的面貌,并為后來的移動電話網絡發展奠定了基石
-
2.3.3. 貝爾實驗室的丹尼斯·里奇和肯·湯普森還開發了UNIX操作系統和C編程語言,這兩項技術至今仍在數據中心的服務器中扮演著核心角色
-
2.3.4. 20世紀90年代,貝爾實驗室成立了生物計算研究部門,由現任普林斯頓大學教授戴維·坦克領導
-
2.3.5. 貝爾實驗室還開發了功能性磁共振成像(fMRI)技術,這項技術能夠無創地觀測人類大腦活動
-
2.3.6. 貝爾實驗室的研究成果令人類文明受益匪淺,但令人扼腕的是,這座創新殿堂如今已成為歷史
-
2.3.6.1. 其研究人員獲得的諾貝爾獎數量甚至超越了許多世界一流大學
2.4. 現代版的“貝爾實驗室”
-
2.4.1. 當代互聯網、云計算和人工智能領域的科技巨頭,正在重演AT&T的歷史角色
-
2.4.2. 企業憑借巨額利潤持續加大研發投入,在全球構建了龐大的數據中心網絡,其強大的計算能力為Transformer模型、ChatGPT等人工智能領域的重大突破提供了基礎支撐
3. 人工智能的動力源泉
3.1. ChatGPT對GPT-4的訪問請求實施了限制,這反映出數據中心在處理AI任務時已接近其能力極限
3.2. 隨著用戶基數的增長,維持運行服務器所需的能源消耗也在急劇上升
3.3. GPT-4的訓練過程耗時數月,動用了數以萬計的GPU,耗費高達1億美元
3.4. 其實更大的成本挑戰在于日常運營,每天大約需要100兆瓦時電能,這意味著GPT-4每天僅響應用戶請求的成本就高達100萬美元
3.5. 自20世紀50年代數字計算興起,計算成本大約每兩年減半,至今已降至初始水平的十億分之一,這一趨勢就是人們熟知的摩爾定律
-
3.5.1. 隨著晶體管和導線尺寸接近物理極限,該定律在近幾年內逐漸失去效力
-
3.5.2. 家用筆記本電腦通常配備4~8個核心,而GPU則可以擁有數千個核心,這一切都濃縮在一塊僅郵票大小的CPU芯片中
-
3.5.3. Cerebras公司引領了創新,推出了一款尺寸如餐盤、集成了2.6萬億個晶體管的芯片
3.6. 多核芯片設計能夠高效支持深度學習所需的大型并行計算架構,當核心數量足夠時,處理時間不再依賴于網絡規模
-
3.6.1. 人工智能算法能充分利用這種并行處理能力,實現性能與效率的雙重提升
-
3.6.2. 隨著模型尺寸的增加、硬件成本的下降,性能也越來越強
3.7. 真正的挑戰并不是計算速度,而是能源消耗
-
3.7.1. 對于將AI功能引入智能手機、智能手表等邊緣設備而言,低功耗計算是關鍵因素,它不僅決定了這些設備智能化水平的高低,也影響著它們的市場接受度和用戶體驗
-
3.7.2. 為了實現AI技術的商品化和普及化,我們需要探索新的技術路徑,以克服當前的能耗障礙
4. 端側AI
4.1. 現今,借助云端技術的支持,智能手機已經能夠進行語音轉文字和語言翻譯
4.2. 如果不能開發出更為節能的計算技術,人工智能的大規模應用將不僅面臨巨大的經濟成本,還會對全球氣候造成顯著影響
4.3. 人類大腦的存在,為實現高效能的便攜式大語言模型提供了靈感
-
4.3.1. 我們的大腦具備比現有頂級AI模型如GPT-4高出約百萬倍的計算能力,卻僅需20瓦的功率運行,每日能耗大約500瓦時
-
4.3.2. 大自然通過進化,在分子層面上嵌入了歸納偏置,并利用對電壓敏感的離子通道來執行計算任務,從而實現了驚人的能源效率
4.4. 在20世紀80年代,加州理工學院的卡弗·米德注意到,晶體管在接近閾值的狀態下工作時,能夠模擬神經元中的電壓敏感生物物理過程
-
4.4.1. 盡管晶體管通常被看作數字電路的基本組件,但從電路設計的角度來看,它們在接近閾值狀態時表現出模擬特性,即輸出電壓能夠平滑且迅速地響應輸入電壓的變化
-
4.4.2. 在數字模式下,強輸入電流會迅速推動輸出達到最大值
-
4.4.3. 將晶體管推向這種“極限”工作狀態需要消耗大量能量,這不僅會產生大量熱量,也是數字計算機能源效率低下的主要原因
4.5. 卡弗·米德發現了晶體管在接近閾值狀態時的低功耗特性,并基于此原理,創造了一種新型的模擬超大規模集成電路(VLSI)計算設備
-
4.5.1. 這些類神經VLSI芯片的能耗僅為傳統數字芯片的一小部分,同時能夠執行類似于神經元的基本計算任務
-
4.5.2. 這種模擬芯片技術提供了一種在保持低能耗的同時提升計算能力的新途徑
-
4.5.3. 由于芯片間導線數量有限,系統采用了一種創新的通信策略:神經元的地址以數字形式異步傳輸,多個神經元通過時間復用的方式共享同一導線
4.6. 在生物大腦中,軸突是負責長距離信息傳遞的專門神經纖維,信息以“全或無”的脈沖形式編碼并傳輸
- 4.6.1. 大腦中約有一半的體積由白質構成,白質中的軸突被白色的髓鞘包裹,這有助于加速信號的傳播
4.7. 在蘇黎世大學,圖比·德爾布魯克開發了一種模擬VLSI視網膜芯片,名為動態視覺傳感器(DVS),它能將運動圖像編碼成脈沖序列
-
4.7.1. 運動物體的輪廓清晰可見,而靜止的背景則不會產生脈沖(少量脈沖來自噪聲)
-
4.7.2. 視網膜不僅包含能夠響應特定刺激的神經元,還同時容納了多種不同類型的輸出神經元
-
4.7.3. 開型和關型神經元已足以捕捉跟蹤快速移動物體所需的關鍵信息
-
4.7.4. 脈沖的產生是異步的,這意味著它們不受固定的時鐘信號的控制
-
4.7.4.1. 傳統的基于幀的相機以30毫秒的幀率工作,這導致運動物體出現模糊,并且由于背景區域通常保持不變,相鄰幀之間存在大量冗余信息
4.8. 在無人機和機器人等應用領域,輕量化和低功耗是極為重要的特性
4.9. 智能手機等邊緣設備也需要輕量化、低功耗和低成本的特性
4.10. 在視覺層級系統中,信息傳遞均通過脈沖形式進行
-
4.10.1. 大腦的運作機制通過其補償缺失視覺信息的能力得以體現
-
4.10.2. 大腦皮質展現了生成能力,可以構造出類似外部視覺場景的幻象
-
4.10.2.1. 這一特性在夢境體驗以及藥物誘發的幻覺中得到了顯著體現
5. 新的計算模型
5.1. 在過去的70年中,馮·諾依曼架構主導了數字計算機的設計
- 5.1.1. 這一架構基于圖靈機理論,而圖靈機是艾倫·圖靈提出的一個概念思維模型,它通過一個簡單的磁帶讀寫器、理論上無限長的磁帶(作為存儲)和有限的內部狀態(模擬處理器),證明了任何可計算的函數都能被解決
5.2. 隨著超級計算機中并行架構的發展和規模的擴大,馮·諾依曼架構中存儲與處理分離的特點逐漸成為性能瓶頸,因為其需要占用龐大的物理空間
5.3. 目前世界上最快的超級計算機Frontier由74個機柜組成,總重30噸,占地7300平方英尺,面積超過兩個網球場
5.4. 光在1納秒內只能傳播1英尺的距離
-
5.4.1. 當相距100英尺的兩個核心嘗試通信時,會產生長達200個時鐘周期的延遲,使得協調這兩個核心變得相當困難
-
5.4.2. 神經元的通信時間尺度為毫秒級(10^-3秒),相比電子設備中的納秒級通信,后者比前者快大約100萬倍
-
5.4.3. 雖然大腦的處理速度相對較慢,但其1000億個神經元能夠通過百萬億個連接并行工作、相互協作,在很大程度上彌補了速度上的不足
5.5. 與科學計算中常用的32位和64位浮點數精度相比,神經網絡中的權重和激活值通常只需要較低的比特精度便能滿足計算需求
浙公網安備 33010602011771號