<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12
      代碼改變世界

      AWS re:Invent 2024 — AI 基礎設施架構

      2024-12-19 20:41  云物互聯  閱讀(300)  評論(0)    收藏  舉報

      從 3 顆大芯片說起

      要說清楚亞馬遜云科技 re:Invent 2024 中所發布的最先進的 AI 基礎設施架構,首先需要從云計算數據中心的 3 顆大芯片說起。它們分別是:

      1. Gravition4 CPU
      2. Nitro5 DPU
      3. Trainium2 “GPU”

      從下文所示的亞馬遜云科技芯片自研路線圖可見,自 2013 年發布了完全自研的第一代 Nitro 芯片以來,到近兩年最新發布的 Gravition4 和 Trainium2,亞馬遜云科技已經成為了全球范圍內屈指可數的擁有完全自研 CPU、DPU、GPU 這 3 顆云計算數據中心大芯片能力的云計算廠商。

      眾所周知,芯片硬件,尤其是 3 顆大芯片的研發投入往往是天文數字,而且研發路徑艱難且漫長。那么,為什么亞馬遜云科技始終堅持芯片自研路徑不放棄呢?筆者認為主要有以下 3 點原因:

      1. 創新:硬件創新是軟件創新、服務創新的基石,亞馬遜云科技不會讓硬件成為了創新的瓶頸。
      2. 高效:亞馬遜云科技提供的云服務持續領先,只有自己才能完全搞懂自身的需求,自研硬件使其得以高效的滿足自身需求并推動創新技術的落地。
      3. 低成本:亞馬遜云科技全球數據中心布局規模巨大,每年從芯片廠商采購 3 顆大芯片所投入的成本量級已經足夠支撐自研團隊,自研生產芯片供應鏈可以更極致的壓低成本,提供更具有價格競爭力的優質服務。

      在這里插入圖片描述

      Graviton 4

      Graviton 是基于 ARM 架構的 CPU 芯片,第一代于 2018 年推出,而最新一代的 Graviton4 于 2023 re:Invent 發布,到 2024 年 7 月為止,已經完成了大規模部署。近兩年以來,亞馬遜云科技 50% 的新增 CPU 容量都已經運行在了 Graviton 上,為用戶提供可選的更高效的 Amazon EC2 實例類型。

      在這里插入圖片描述

      Graviton4 采用了當前最先進的 ARM Neoverse V2 架構,是業界最早支持 ARM v9 架構的芯片之一。

      • 在計算核心方面,Graviton4 的 CPU Cores 數量已經到了 96 個;
      • 在高速緩存方面,Graviton4 的每個 Core 的 L2 cache 擴大了 100% 到 2MB,L2 cache 總量達到了 96 * 2MB = 192MB;
      • 在內存帶寬方面,Graviton4 同時支持 12 通道的 DDR5-5600,內存帶寬提升了 75%,峰值帶寬可以達到 537.6GB/s;
      • 在高速接口方面,Graviton4 支持高達 96 通道的 PCIe 5.0 高速接口,更好的滿足了云計算數據中心和云存儲的應用場景。
      • 在能源功耗方面,Graviton4 的計算實例在同等性能下可以減少 60% 的能耗。

      通過完全自研的、省去了中間商的 Graviton4 CPU,亞馬遜云科技可以在一臺同規格的計算服務器上提供 3 倍的 vCPU 核心數量,可以創建出更大規格的、更多數量的、更高性能的 EC2 計算實例,以此來客戶提供了最佳的規格靈活性和成本效益。

      在這里插入圖片描述

      另外,Graviton CPU 除了可以提供與 x86 架構相當的性能之外,也并不僅滿足于以 Benchmark 跑分為目標。相對的,而是更加關注真實工作負載類型的性能數據來作為 CPU 微架構設計和演進的指標,例如:核心目標從 Benchmark 中的 L2/L3 Cache 優化到實際工作負載的分支預測器的優化。典型的成果包括 Web Application、Database Application、Java Application 等等云上廣泛部署的真實負載性能分別有了 30%~45% 的提升。

      在這里插入圖片描述

      Nitro 5

      雖然比較可惜在今年的 2024 re:Invent 上沒有看見 Nitro 6 的發布,但 Nitro5 在保障云基礎設施全鏈路安全性上的創新實踐依舊令人眼前一亮。

      Nitro 芯片作為世界上最早發布的 DPU 之一,其旨在實現 Network、Storage、Hypervisor、Security 等虛擬化技術方面的 Workload offloading,消除了傳統虛擬化技術對 CPU 資源的性能開銷。同時還集成了多種功能,包括 Security Root 信任根、內存保護、安全監控等,以此來加強 Amazon EC2 實例的高性能和高安全性。在文章《看 AWS 如何通過 Nitro System 構建競爭優勢》中我們已經詳細介紹過 Nitro 芯片以及 Nitro System 的演進歷史和設計思路,先不再贅述。

      在這里插入圖片描述

      本文中我們主要關注 Nitro 已經成為了整個亞馬遜云計算平臺的信任根!具體而言,Nitro 提供了以下安全能力:

      1. Nitro Security Chip:隨著更多的功能被卸載到專用硬件設備上,Nitro Security Chip 提供了面向專用硬件設備及其固件的安全防護能力,包括限制云平臺維護人員對設備的訪問權限,消除人為的錯誤操作和惡意篡改。
      2. Nitro TPM(Trusted Platform Module,可信平臺模塊):支持 TPM 2.0 標準,Nitro TPM 允許 EC2 實例生成、存儲和使用密鑰,繼而支持通過 TPM 2.0 認證機制提供實例完整性的加密驗證,能夠有效地保護 EC2 實例,防止非法用戶訪問用戶的個人隱私數據。
      3. Nitro Enclaves:為了進一步保障 EC2 用戶的個人信息保護及數據安全,Nitro Enclaves 基于 Nitro Hypervisor 進一步提供了創建 CPU 和 Memory 完全隔離的計算環境的能力,以保護和安全地處理高度敏感的數據。

      在這里插入圖片描述

      我們知道 “安全” 對于公有云而言至關重要,因為這里面涉及到 “商業可信賴” 層面的問題。安全問題又可以細分為多個不同的維度,粗略的可以分為:軟件安全、硬件安全、供應鏈安全、網絡安全等等。

      而 Nitro 解決了就是其中最重要的硬件安全部分。那么,為什么說對于公有云而言硬件安全非常重要呢?筆者認為有以下 2 點原因:

      1. 一方面,基于 Nitro DPU,亞馬遜云已經將 Network、Storage、Hypervisor 這 3 大模塊的 Workload offloading 到了硬件上,繼而實現硬件層面的完全 Multi-tenant 隔離以及性能加速,所以這些 workload 的安全需求也隨著一并卸載到了硬件之上。
      2. 另一方面,亞馬遜云作為全球最大規模的云計算廠商,其硬件服務器的存在顯著的標準化采購成本效益,當部署了海量的同型號服務器時,那么單一的故障或安全隱患也會造成大面積的風險。

      所以,Nitro 為了確保整個硬件供應鏈的安全性,從芯片制造階段開始,到硬件服務器的制造、組裝、物流、上架、初始化、引導啟動操作系統的全流程中,Nitro 就對每個硬件組件進行加密認證。插入了 Nitro DPU 的服務器以一種非常干凈的、高內聚的方式提供了可信根安全驗證功能,從,它完全隱藏了內部的安全校驗細節,具有良好的 Smart Endpoint 特性。

      在這里插入圖片描述

      在 2024 re:Invent 中,我們看到亞馬遜云極致的將 Nitro DPU 與 Graviton CPU 之間的 PCIe 鏈路都進行了加密,創建了一個相互鎖定的信任網絡,使 CPU 到 CPU、CPU 到 DPU 的所有連接都由硬件提供安全保護。

      在這里插入圖片描述

      Trainium 2

      Trainium2 在 2023 re:Invent 上一經發布就引起了行業的轟動,因為 Trainim2 的本質就是一個用于 AI 模型訓練和推理的 “GPU” 加速器芯片,并且從公布的技術參數來看已然有望正面競爭 Nvidia 的 Hopper H100 GPU。

      • 計算能力:每顆芯片提供 1.3 FP8 PetaFLOPS 性能,支持 BF16 和 FP8 精度。
      • 存儲性能:搭載 96GB HBM3,提供高達 46TB/s 的帶寬。
      • 擴展性:通過 NeuronLink 網絡實現多芯片互連,支持多達 64 芯片的服務器配置,并擴展到超大規模集群。

      請添加圖片描述

      為應對大模型訓練的需求浪潮,Trainium2 是亞馬遜云科技專為超過 1 千億個參數大模型的深度學習訓練而打造的計算芯片,經歷了 Inferentia1、Trainium1、Inferentia2 等迭代。

      Inferentia1:于 2019 年發布,是一款專為機器學習推理而設計的芯片,應用于 Amazon SageMaker 托管實例中。Inferentia1 具有 4 個 NeuronCore(神經元核心),包括 ScalarEngine 和 VectorEngine,類似于 Nvidia GPU 中的 CUDA 核心。還包括了 TensorEngine,用于加速矩陣數學,類似于 Nvidia GPU 中的 TensorCore。

      Inferentia1 的 NeuronCore-v1 內核在 FP16/BF16 粒度下提供 16 TeraFLOPS 的性能。與 GPGPU 相比,Inferentia 芯片針對特定工作負載進行了專門優化。它具有大規模并行處理能力,可同時處理數百萬個低精度運算。在數據中心環境下,Inferentia 提供了媲美 GPU 的性能,但功耗更低、成本更優。

      Trainium1:于 2020 年發布,使用 NeuronCore-v2 核心,添加了 32GB HBM(高帶寬內存)堆疊 DRAM 內存以提高帶寬。Trainium1 相較于 Inferentia1 可能減少了 NeuronCore 數量,但在每個核心內的 ScalarEngine、VectorEngine 和 TensorEngine 引擎數量增加了一倍。此外,Trainium1 引入了稱為 GPSIMD 引擎的通用處理器,可以直接使用 C/C++ 進行尋址。

      Inferentia2:于 2022 年發布,基本上是 Trainium1 的變體,通過保留 HBM 帶寬并可能未激活某些元件來適應推理工作負載。其架構與 Trainium1 相似,但具有更少的 NeuronLink-v2 互連端口。Inferentia2 被亞馬遜云廣泛應用于 IoT 物聯網、語音識別等眾多傳統 AI 應用及 Gen AI 應用中。

      Trainium2:于 2023 年發布,下圖可見 Trainium2 采用了先進的封裝技術,將計算芯片和(HBM)模塊集成在一個緊湊的封裝(package)內。具體而言,每個 Trainium2 單卡內封裝了 2 個 Trainium2 計算核心,而每個核心旁邊都配備了 2 塊 96GB HBM 內存模塊,從而實現了計算和內存的無縫集成。這種先進的封裝設計克服了芯片尺寸的工程極限,最大限度地縮小了計算和內存之間的距離,使用大量高帶寬、低延遲的互連將它們連接在一起。這不僅降低了延遲,還能使用更高效的協議交換數據,提高了性能。

      在計算核心方面,Trainium2 由少量大型 NeuronCore 組成,每個 NeuronCore 內部集成了張量引擎、矢量引擎、標量引擎和 GPSIMD 引擎,各司其職協同工作。這種設計思路與傳統 GPGPU 使用大量較小張量核心形成鮮明對比,大型核心在處理 Gen AI 工作負載時能夠有效減少控制開銷。

      • 張量引擎:作為核心計算單元,以 128×128 脈動陣列的形式,從 SRAM 緩沖區收集輸入并輸出結果到部分和 SRAM 緩沖區,承擔了現代 LLM 工作負載中 80%以上的功率和 FLOPS 消耗;
      • 矢量引擎:專注于加速矢量運算,如在注意層中計算 softmax 或在層/批處理規范化層中計算移動平均值和方差時發揮重要作用;
      • 標量引擎:用于執行元素級操作等簡單映射操作;
      • GPSIMD 引擎:具備圖靈完備性,可運行任意 C++代碼,方便開發人員快速實現自定義操作。

      此外,Trainium2 還創新性地配備了專用的集體通信核心,專門用于與其他芯片通信,實現了計算通信重疊且避免了資源爭用。這一設計相較于 Nvidia 和 AMD 在通信與計算資源共享同一核心的模式具有顯著優勢,大大降低了用戶在平衡通信與計算操作時的復雜性。Trainium2 還將電壓調節器移至封裝周圍,靠近芯片本身,通過更短的導線為芯片供電,減少了電壓下降,提高了能效。

      最后,亞馬遜云科技還宣布了下一代 Trainium3 芯片,采用 3 納米制程,預計將比 Trainium2 提升 2 倍的性能,改善 40% 的能效,將于 2025 年底推出。

      在這里插入圖片描述

      從業務視角來看,Trainium1 針對訓練自然語言處理、計算機視覺和推薦器模型進行了優化,這些模型常用于文本摘要、代碼生成、問題解答、圖像和視頻生成、推薦和欺詐檢測等各種應用程序。目前大模型參數量級常常到達數千億甚至數萬億,而 Trainium2 則是面向 AI 大模型的高性能訓練芯片,與第一代 Trainium 芯片相比,Trainium2 訓練速度提升至 4 倍,能夠部署在多達 10 萬個芯片的計算集群中,大幅降低了模型訓練時間,同時能效提升多達 2 倍。用于支撐 Amazon Q、Amazon Nova、Amazon SageMaker、Amazon Bedrock 等先進 AI 大模型和機器學習工作負載。

      頂級單機運算性能

      Trainium2 UltraServer

      在介紹了 Graviton4、Nitro5 和 Trainium2 這 3 顆大芯片之后,我們把算力視角抬高到單臺服務器的層級上。

      2024 re:Invent 大會中,亞馬遜云科技公用計算高級副總裁 Peter DeSantis 首先引用了一篇 2020 年的論文:“AI 場景中巨量的計算負載,并不能完全通過 ScaleOut(橫向擴展)AI 集群來解決,同樣也需要 ScaleUp(縱向擴展)單臺 AI 服務器的能力?!?基于這樣的設計思想,Peter 推出了 Trainium2 Server 和 Trainium2 UltraServer。

      請添加圖片描述

      • Trainium2 Server:是一臺集成了 16 塊 Trainium2 的服務器,單臺 Trainium Server 可提供 20.8 Pflops(萬億次每秒浮點運算)算力和 1.5TB HBM 顯存,顯存帶寬達 46TB/s。可用于訓練數十億參數的大模型。同時為了可靠性,Trainium2 Server 中每一個 “刀片” 的整個結構設計非常簡單,前面是 8 塊 Nitro 芯片作為網絡連接,后面就是兩塊 Trainium2 芯片提供 AI 加速運算。
        在這里插入圖片描述

      • Trainium2 UltraServer:則是一體化 64 卡 AI 算力機柜,代表了當前 AI 超級計算的頂級性能,是運算能力 ScaleUP 的極致體現。Trainium2 UltraServer 高峰時提供 83.2 Pflops 算力(萬億次每秒浮點運算能力),6TB HBM 高速內存,以及 185TB/s 的 HBM 內存帶寬。完全可以用來訓練和部署目前最大的 AI 模型,包括語言、多模態和視覺模型。
        在這里插入圖片描述

      那么,為什么必須要 ScaleUp 呢?因為當下先進的 AI 大模型的參數數量呈指數級增長,如 GPT-4 等模型已經擁有數萬億參數,單一 AI 加速器芯片已經完全無法裝下一個模型的體量,集群訓練已經成為了常態。雖然,相應的集群訓練技術和工具也已然成熟,但 AI 加速器集群之間的數據通信效率就成為了難以忽視的瓶頸,例如,在訓練 GPT-4 這樣的超大型模型時,需要耗費巨大的計算資源和漫長的時間。

      在競爭愈發激烈的 AI 大模型領域中,如何能夠更高效的、更低成本的、更快速擴容滿足算力需求的能力,就成為了贏得市場的關鍵之一。正如 Peter 所言:“在推動前沿模型的發展的進程中,對于極為苛刻的人工智能工作負載來說,再強大的計算能力也永遠不夠。”

      而 ScaleUp 所帶來的好處就是為大模型訓練提供了更大的訓練成功率、更高效的梯度數據匯聚與同步、更低的能源損耗?;?Trainium2 UltraServer 支撐的 Amazon EC2 Trn2 UltraServer 可以提供高達 83.2 FP8 PetaFLOPS 的性能以及 6TB 的 HBM3 內存,峰值帶寬達到 185 TB/s,并借助 12.8 Tb/s EFA(Elastic Fabric Adapter)網絡進行互連。讓 AI 工程師能夠考慮在單臺 64 卡一體機內以更短的時間訓練出更加復雜、更加精準的 AI 模型。

      AWS scales up Trainium2 with UltraServer, touts Apple, Anthropic as  customers | Constellation Research Inc.

      Trainium2 UltraServer 的眾多技術細節中不得不提到就是 NeuronLink,它是一種亞馬遜云科技專有的網絡互連技術,可使多臺 Trainium2 Server 連接起來,成為一臺邏輯上的服務器。

      與傳統的高速網絡協議不同,NeuronLink 技術可以讓 Trainium2 Server 之間直接訪問彼此的內存,并提供每秒 2 TB 的帶寬,延遲僅為 1 微秒。NeuronLink 技術使得多臺 Trainium2 Server 就像是一臺超級計算機一樣工作,故稱之為 “UltraServer”?!斑@正是訓練萬億級參數的大型人工智能模型所需要的超級計算平臺,非常強大!” Peter 介紹道。

      在這里插入圖片描述

      AI 超級計算集群 —— Project Rainier

      繼續讓我們把算力視角提高到集群、到數據中心。在 Peter keynote 的尾聲,他提出了構建人工智能基礎設施的 2 根支柱:

      1. ScaleUp:構建更強大的 AI 服務器;
      2. ScaleOut:構建更大規模、更高效率的 AI 服務器集群。

      在這里插入圖片描述

      在 ScaleOut 層面,亞馬遜云科技正在與 Anthropic 合作部署 Rainier 項目,Anthropic 聯合創始人兼首席計算官 Tom Brown 宣布下一代 Claude 模型將在 Project Rainier 上訓練。

      Rainier 項目是一個龐大的 AI 超級計算集群,包含數十萬個 Trainium2 芯片,預計可提供約 130 FP8 ExaFLOPS 的超強性能,運算能力是以往集群的 5 倍多,將為 Anthropic 的下一代 Claude AI 模型提供支持。Rainier 項目將會幫助 Anthropic 的客戶可以用更低價格、更快速度使用到更高智能的 Claude AI 大模型服務。

      10p10u 網絡架構

      為了基于 Trainium2 UltraServer 實現 ExaFLOPS 級別的 AI 超級計算集群,亞馬遜云科技專門設計了 10p10u 網絡架構。Peter 首先說明了 AI Network 和 Cloud Network 存在著本質的區別。由于每臺 Trainium2 UltraServer 都有近 13TB 的網絡帶寬,所以需要大規模的、區別于 Cloud Network 的 AI Network 來防止出現瓶頸。

      在這里插入圖片描述

      Peter 表示:“我們稱之為 10p10u,因為它能夠為數千臺服務器提供高達 10PB 的網絡容量,并且延遲時間低于 10 微秒。10p10u 網絡是大規模并行且密集互連的,而且 10p10u 網絡具有彈性,我們可以將其縮小到只有幾個機架,也可以將其擴展到跨多個物理數據中心園區的集群,具有良好的彈性。”

      在這里插入圖片描述

      SIDR 路由協議

      在十萬卡、乃至百萬卡的 10p10u AI 網絡架構中,其規模異常龐大,路由相對復雜。SIDR(Scalable Intent Driven Routing,可擴展意圖驅動路由)是亞馬遜云科技專為管理這種復雜的 AI 網絡架構而設計路由協議,SIDR 開創性的結合了 “集中規劃 + 分散執行” 的特性,是一個混合式的路由協議。該協議使網絡能夠在不到一秒的時間內響應故障,這比其他方法快十倍。

      在這里插入圖片描述

      Amazon Bedrock 新一代 Gen AI 用戶界面

      那么在如此強大的 AI 基礎設施架構中,為亞馬遜云科技帶來了那些 AI 技術創新呢?Amazon Bedrock 絕對是其中之一。

      Amazon Bedrock 是亞馬遜云科技在 2023 年發布的一項完全托管服務,讓用戶在可以不管關心基礎設施復雜度的前提下快速使用到全球領先 AI 公司的高性能基礎模型,目前支持的 AI 模型已超過 40 個,并且陸續支持了包括:導入定制模型、支持微調、利用自有數據進行檢索增強生成(RAG)、全托管 Agent 等多種 AI 大模型功能。

      通過 Amazon Bedrock 作為新一代 Gen AI 用戶界面,為用戶構建 Gen AI 應用程序提供完整的云上自服務。
      在這里插入圖片描述

      在 2024 re:Invent 中,亞馬遜云科技基于強大的 Tranium2 Server 推出了 Bedrock 低延遲優化推理功能。
      在這里插入圖片描述

      低延遲推理意味著更快的服務反應速度和更好的用戶體驗,以此可支撐更優化的產品服務。其中,廣受歡迎的 Llama 模型的 Llama 405B 和Llama 70B 低延遲優化版本,在 Bedrock 低延遲優化推理功能中展現出了超越其他云提供商的出色表現。

      在這里插入圖片描述

      最后

      在這里插入圖片描述

      最后,Peter 在 2024 re:Invent 第一天的 Keynote 中總結:“通過持續在諸如 Nitro、Graviton 和 Tranium2 等領域的核心創新投資,亞馬遜云科技正在構建更強大的人工智能服務器。而持續的領先,來自于對硬件細節極致的追求。”

      這也是筆者從 2024 re:Invent 大會中最深刻的感受,亞馬遜云科技對于其云計算業務的價值追求始終圍繞著 “彈性、安全、性能、成本、可靠性、可持續性” 這六個方面展開,作為云計算領域的領導者,亞馬遜云科技深知自研硬件對于構建創新、高效、低成本的優質云服務至關重要。對自研硬件設備堅定不移的持續投資,使其得以在激烈且快速的 AI 賽道上依舊為客戶提供高效、低成本的優質服務。

      主站蜘蛛池模板: 18禁男女爽爽爽午夜网站免费| 亚洲va久久久噜噜噜久久狠狠| 国产精品成人免费视频网站京东| 中文字幕在线日韩| 岛国av无码免费无禁网站| 亚洲一区二区中文av| 亚洲成av一区二区三区| 免费看欧美全黄成人片| 国产精品一区二区三粉嫩| 18禁免费无码无遮挡不卡网站| 柞水县| 久久精品国产亚洲av高| 日韩一卡二卡三卡四卡五卡| 日韩人妻无码精品久久| 国产亚洲精品午夜福利| 999精品色在线播放| 国产嫩草精品网亚洲av| 中文国产不卡一区二区| 国产一区二区三区亚洲精品| 伊人久久大香线蕉综合5g| 天柱县| 久久综合97丁香色香蕉| 日本一区二区三区专线| 日本一道高清一区二区三区| 在线精品国精品国产不卡| 午夜成年男人免费网站| 国产av剧情md精品麻豆| 国产精品一区 在线播放| 国产成人一区二区三区免费| 毛片无码一区二区三区| 国产中文字幕日韩精品| 久久这里都是精品二| 亚洲毛片不卡AV在线播放一区| 阿拉善右旗| 在线天堂最新版资源| 四虎永久地址WWW成人久久| 梁平县| 亚洲av日韩av中文高清性色| 狠狠婷婷色五月中文字幕| 国产卡一卡二卡三免费入口| 中文字幕免费不卡二区|