GPUStack v0.7重磅發(fā)布：macOS與Windows安裝包、昇騰MindIE多機(jī)推理、模型使用計(jì)量與寒武紀(jì)MLU支持

GPUStack v0.7 提供了 70 余項(xiàng)功能優(yōu)化與穩(wěn)定性修復(fù)，涵蓋推理加速與性能優(yōu)化、開箱即用與用戶交互、生產(chǎn)落地與多場景兼容性、運(yùn)維運(yùn)營能力等多個(gè)方面，進(jìn)一步提升平臺(tái)的可用性與工程穩(wěn)定性，助力用戶輕松構(gòu)建高性能、可擴(kuò)展的大模型服務(wù)體系！

GPUStack 是一個(gè)100%開源的模型服務(wù)平臺(tái)。

GPUStack 支持 Linux、Windows 和 macOS，支持 NVIDIA、AMD、Apple Silicon、昇騰、海光、摩爾線程等 GPU 構(gòu)建異構(gòu) GPU 集群，支持 LLM、多模態(tài)、Embedding、Reranker、圖像生成、Speech-to-Text 和 Text-to-Speech 模型。

GPUStack 支持 vLLM、MindIE、llama-box（基于 llama.cpp 與 stable-diffusion.cpp）等多種推理引擎與推理引擎多版本并行，支持資源自動(dòng)調(diào)度分配、模型故障自動(dòng)恢復(fù)、多機(jī)分布式推理、混合異構(gòu)推理、推理請(qǐng)求負(fù)載均衡、資源與模型監(jiān)控指標(biāo)觀測、國產(chǎn)化支持、用戶管理與 API 認(rèn)證授權(quán)等各種企業(yè)級(jí)特性。

GPUStack 提供OpenAI 兼容 API 無縫接入 Dify、RAGFlow、FastGPT、MaxKB 等各種上層應(yīng)用框架，是企業(yè)建設(shè)模型服務(wù)平臺(tái)的理想選擇。

隨著大模型在 RAG、AI Agents 以及各類生成式 AI 場景中的快速落地，工程團(tuán)隊(duì)對(duì)異構(gòu)GPU資源的統(tǒng)一調(diào)度、推理加速與系統(tǒng)可運(yùn)維性等方面提出了更高要求。GPUStack 致力于為開發(fā)者提供一個(gè)開箱即用、可擴(kuò)展、支持多后端的推理平臺(tái)，幫助用戶高效部署模型，簡化系統(tǒng)集成。

在 GPUStack v0.7 中，平臺(tái)圍繞推理性能、部署易用性、異構(gòu)硬件兼容性和系統(tǒng)可觀測性等核心方向，進(jìn)行了全面增強(qiáng)與能力演進(jìn)。重點(diǎn)更新包括：

桌面系統(tǒng)一鍵安裝支持：大幅簡化本地開發(fā)環(huán)境配置流程，助力個(gè)人開發(fā)者與小團(tuán)隊(duì)快速啟動(dòng)本地推理服務(wù)。
昇騰 MindIE 多機(jī)分布式推理支持：在原有 MindIE 單機(jī)推理能力基礎(chǔ)上，擴(kuò)展對(duì)華為昇騰 NPU 的多節(jié)點(diǎn)分布式推理支持，適用于超大參數(shù)模型的國產(chǎn)化部署需求。
模型使用計(jì)量與計(jì)費(fèi)數(shù)據(jù)采集：引入細(xì)粒度的推理請(qǐng)求統(tǒng)計(jì)與計(jì)量機(jī)制，為模型服務(wù)的精細(xì)化運(yùn)營與計(jì)費(fèi)體系提供數(shù)據(jù)支撐。
寒武紀(jì) MLU 兼容支持：感謝寒武紀(jì)團(tuán)隊(duì)為 GPUStack 社區(qū)貢獻(xiàn) MLU 芯片的適配支持，進(jìn)一步豐富 GPUStack 對(duì)國產(chǎn) AI 硬件的兼容能力，完善 GPUStack 在異構(gòu)算力生態(tài)中的布局。

除上述關(guān)鍵更新外，GPUStack v0.7 還包含 70 余項(xiàng)功能優(yōu)化與穩(wěn)定性修復(fù)，涵蓋推理加速與性能優(yōu)化、開箱即用與用戶交互、生產(chǎn)落地與多場景兼容性、運(yùn)維運(yùn)營能力等多個(gè)方面，進(jìn)一步提升平臺(tái)的可用性與工程穩(wěn)定性，助力用戶輕松構(gòu)建高性能、可擴(kuò)展的大模型服務(wù)體系！

有關(guān) GPUStack 的詳細(xì)信息，可以訪問：

GitHub 倉庫地址: https://github.com/gpustack/gpustack

GPUStack 用戶文檔: https://docs.gpustack.ai

重點(diǎn)特性介紹

昇騰 MindIE 多機(jī)分布式推理

MindIE 是昇騰官方推出的高性能推理框架，具備運(yùn)行加速、調(diào)試優(yōu)化與快速部署等優(yōu)勢，已成為 NPU 上主流的模型部署推理方案。

GPUStack 自 v0.6 起集成 MindIE，支持在昇騰 910B 和 310P 平臺(tái)上運(yùn)行主流大模型，提供穩(wěn)定且高效的單機(jī)推理能力。隨著用戶對(duì)超大規(guī)模模型和橫向擴(kuò)展的需求不斷提升，v0.7 在此基礎(chǔ)上新增對(duì) MindIE 多機(jī)分布式推理的支持。

我們已完成包括 DeepSeek R1 671B 在內(nèi)的多機(jī)場景實(shí)測部署，驗(yàn)證其在昇騰集群中的穩(wěn)定性與高吞吐性能，充分滿足 NPU 集群環(huán)境下大規(guī)模模型部署和高效推理的需求。

▲ GPUStack + Ascend MindIE 在多節(jié)點(diǎn) NPU 集群上運(yùn)行超大模型 DeepSeek R1 671B

macOS 與 Windows 一鍵安裝包

在過往版本中，用戶在桌面環(huán)境部署 GPUStack 需依賴安裝腳本或 Python 環(huán)境，常因 Python 環(huán)境沖突、系統(tǒng)依賴缺失、環(huán)境差異或網(wǎng)絡(luò)問題而導(dǎo)致安裝失敗，同時(shí)安裝過程缺乏進(jìn)度反饋，容易中斷流程，影響初學(xué)者的上手體驗(yàn)。

為解決上述問題，GPUStack v0.7 全新推出適用于 macOS 與 Windows 平臺(tái)的原生一鍵安裝包：

零環(huán)境依賴：無需預(yù)裝 Python、Docker Desktop 或其他組件，雙擊即可完成安裝與啟動(dòng)；
內(nèi)置 GPUStack Helper 運(yùn)維面板，提供一站式圖形化管理操作：
- 快速設(shè)置核心參數(shù)（如 Server / Worker 角色、端口、環(huán)境變量）；
- 一鍵訪問配置目錄，方便編輯配置文件及后臺(tái)服務(wù)文件；
- 實(shí)時(shí)查看和管理 Worker 服務(wù)狀態(tài)與運(yùn)行日志，便捷訪問 Web 控制臺(tái)。
極大降低部署門檻：適用于本地測試、個(gè)人開發(fā)、小型部署等場景，讓開發(fā)者無需折騰即可快速上手。

這一版本顯著優(yōu)化了桌面環(huán)境下的安裝體驗(yàn)，幫助開發(fā)者在本地快速完成模型部署與測試，讓本地大模型推理像安裝 App 一樣簡單自然，也為個(gè)人開發(fā)者、團(tuán)隊(duì)快速評(píng)估和體驗(yàn) GPUStack 提供了更輕量的入口。

模型使用計(jì)量與計(jì)費(fèi)數(shù)據(jù)采集

GPUStack v0.7 新增了對(duì)推理請(qǐng)求的細(xì)粒度計(jì)量能力，支持按用戶和模型維度采集調(diào)用數(shù)據(jù)，涵蓋 API 請(qǐng)求次數(shù)、輸入輸出 Token 數(shù)量等關(guān)鍵指標(biāo)，幫助用戶全面掌握模型服務(wù)的使用情況。

隨著模型服務(wù)逐步進(jìn)入多用戶、多模型、多場景并存的階段，透明且可追蹤的使用數(shù)據(jù)對(duì)服務(wù)治理與資源管理的重要性日益凸顯。GPUStack 為模型服務(wù)提供了可靠的數(shù)據(jù)基礎(chǔ)，為構(gòu)建靈活的計(jì)費(fèi)體系、異常請(qǐng)求定位以及后續(xù)的資源配額管理等場景提供了可靠基礎(chǔ)，也為企業(yè)實(shí)現(xiàn)模型服務(wù)的精細(xì)化運(yùn)營閉環(huán)奠定了堅(jiān)實(shí)支撐。

▲ v0.7 引入了對(duì)推理請(qǐng)求的細(xì)粒度計(jì)量能力

寒武紀(jì) MLU 兼容支持

在 GPUStack v0.7 中，寒武紀(jì)團(tuán)隊(duì)為社區(qū)貢獻(xiàn)了 MLU 芯片的適配支持，標(biāo)志著 GPUStack 在國產(chǎn) AI 硬件生態(tài)中的支持范圍進(jìn)一步拓展，也體現(xiàn)了平臺(tái)在推理基礎(chǔ)設(shè)施領(lǐng)域逐步獲得主流芯片廠商的認(rèn)可與合作。

目前，GPUStack 已支持統(tǒng)一調(diào)度包括 NVIDIA、AMD、Apple、昇騰、海光、摩爾線程、天數(shù)智芯、寒武紀(jì)等多種異構(gòu)算力資源，為用戶提供在異構(gòu)環(huán)境下靈活部署模型、提供穩(wěn)定推理服務(wù)的一體化能力。

隨著平臺(tái)持續(xù)拓展對(duì)國產(chǎn)芯片的適配支持，GPUStack 正成為企業(yè)在大模型國產(chǎn)化部署、異構(gòu)算力統(tǒng)一調(diào)度與高性能模型服務(wù)場景中的關(guān)鍵基礎(chǔ)平臺(tái)。

UI / UX 全面升級(jí)

GPUStack v0.7 對(duì)平臺(tái)界面進(jìn)行了全面的 UI / UX 升級(jí)，優(yōu)化了導(dǎo)航結(jié)構(gòu)與交互體驗(yàn)，使模型服務(wù)的使用更加高效、直觀。

菜單重構(gòu)：主導(dǎo)航結(jié)構(gòu)更加清晰，核心功能一目了然，減少層級(jí)跳轉(zhuǎn)；
關(guān)鍵入口常駐可見：用戶可快速訪問常用功能，無需反復(fù)展開菜單；
統(tǒng)一交互風(fēng)格：頁面布局更有邏輯，操作路徑更順暢，顯著降低使用門檻。

新版本界面更貼合用戶操作習(xí)慣，大幅提升功能可達(dá)性與操作效率，讓用戶能夠更專注于模型服務(wù)本身。

▲ v0.7 全新界面重構(gòu)，常用功能一鍵直達(dá)，大幅提升使用效率與易用性

加入社區(qū)

想要了解更多關(guān)于 GPUStack 的信息，可以訪問我們的倉庫地址：https://github.com/gpustack/gpustack。如果你對(duì) GPUStack 有任何建議，歡迎提交 GitHub issue。在體驗(yàn) GPUStack 或提交 issue 之前，請(qǐng)?jiān)谖覀兊?GitHub 倉庫上點(diǎn)亮 Star ??關(guān)注我們，也非常歡迎大家一起參與到這個(gè)開源項(xiàng)目中！

如果覺得對(duì)你有幫助，歡迎點(diǎn)贊、轉(zhuǎn)發(fā)、關(guān)注。

posted @ 2025-07-28 14:02 GPUStack 閱讀(692) 評(píng)論(0) 收藏舉報(bào)

刷新頁面返回頂部

gpustack