GPUStack v0.7重磅發(fā)布:macOS與Windows安裝包、昇騰MindIE多機(jī)推理、模型使用計(jì)量與寒武紀(jì)MLU支持
GPUStack 是一個(gè)100%開源的模型服務(wù)平臺(tái)。
GPUStack 支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇騰、海光、摩爾線程等 GPU 構(gòu)建異構(gòu) GPU 集群,支持 LLM、多模態(tài)、Embedding、Reranker、圖像生成、Speech-to-Text 和 Text-to-Speech 模型。
GPUStack 支持 vLLM、MindIE、llama-box(基于 llama.cpp 與 stable-diffusion.cpp)等多種推理引擎與推理引擎多版本并行,支持資源自動(dòng)調(diào)度分配、模型故障自動(dòng)恢復(fù)、多機(jī)分布式推理、混合異構(gòu)推理、推理請(qǐng)求負(fù)載均衡、資源與模型監(jiān)控指標(biāo)觀測、國產(chǎn)化支持、用戶管理與 API 認(rèn)證授權(quán)等各種企業(yè)級(jí)特性。
GPUStack 提供OpenAI 兼容 API 無縫接入 Dify、RAGFlow、FastGPT、MaxKB 等各種上層應(yīng)用框架,是企業(yè)建設(shè)模型服務(wù)平臺(tái)的理想選擇。
隨著大模型在 RAG、AI Agents 以及各類生成式 AI 場景中的快速落地,工程團(tuán)隊(duì)對(duì)異構(gòu)GPU資源的統(tǒng)一調(diào)度、推理加速與系統(tǒng)可運(yùn)維性等方面提出了更高要求。GPUStack 致力于為開發(fā)者提供一個(gè)開箱即用、可擴(kuò)展、支持多后端的推理平臺(tái),幫助用戶高效部署模型,簡化系統(tǒng)集成。
在 GPUStack v0.7 中,平臺(tái)圍繞推理性能、部署易用性、異構(gòu)硬件兼容性和系統(tǒng)可觀測性等核心方向,進(jìn)行了全面增強(qiáng)與能力演進(jìn)。重點(diǎn)更新包括:
- 桌面系統(tǒng)一鍵安裝支持:大幅簡化本地開發(fā)環(huán)境配置流程,助力個(gè)人開發(fā)者與小團(tuán)隊(duì)快速啟動(dòng)本地推理服務(wù)。
- 昇騰 MindIE 多機(jī)分布式推理支持:在原有 MindIE 單機(jī)推理能力基礎(chǔ)上,擴(kuò)展對(duì)華為昇騰 NPU 的多節(jié)點(diǎn)分布式推理支持,適用于超大參數(shù)模型的國產(chǎn)化部署需求。
- 模型使用計(jì)量與計(jì)費(fèi)數(shù)據(jù)采集:引入細(xì)粒度的推理請(qǐng)求統(tǒng)計(jì)與計(jì)量機(jī)制,為模型服務(wù)的精細(xì)化運(yùn)營與計(jì)費(fèi)體系提供數(shù)據(jù)支撐。
- 寒武紀(jì) MLU 兼容支持:感謝寒武紀(jì)團(tuán)隊(duì)為 GPUStack 社區(qū)貢獻(xiàn) MLU 芯片的適配支持,進(jìn)一步豐富 GPUStack 對(duì)國產(chǎn) AI 硬件的兼容能力,完善 GPUStack 在異構(gòu)算力生態(tài)中的布局。
除上述關(guān)鍵更新外,GPUStack v0.7 還包含 70 余項(xiàng)功能優(yōu)化與穩(wěn)定性修復(fù),涵蓋推理加速與性能優(yōu)化、開箱即用與用戶交互、生產(chǎn)落地與多場景兼容性、運(yùn)維運(yùn)營能力等多個(gè)方面,進(jìn)一步提升平臺(tái)的可用性與工程穩(wěn)定性,助力用戶輕松構(gòu)建高性能、可擴(kuò)展的大模型服務(wù)體系!
有關(guān) GPUStack 的詳細(xì)信息,可以訪問:
GitHub 倉庫地址: https://github.com/gpustack/gpustack
GPUStack 用戶文檔: https://docs.gpustack.ai
重點(diǎn)特性介紹
昇騰 MindIE 多機(jī)分布式推理
MindIE 是昇騰官方推出的高性能推理框架,具備運(yùn)行加速、調(diào)試優(yōu)化與快速部署等優(yōu)勢,已成為 NPU 上主流的模型部署推理方案。
GPUStack 自 v0.6 起集成 MindIE,支持在昇騰 910B 和 310P 平臺(tái)上運(yùn)行主流大模型,提供穩(wěn)定且高效的單機(jī)推理能力。隨著用戶對(duì)超大規(guī)模模型和橫向擴(kuò)展的需求不斷提升,v0.7 在此基礎(chǔ)上新增對(duì) MindIE 多機(jī)分布式推理的支持。
我們已完成包括 DeepSeek R1 671B 在內(nèi)的多機(jī)場景實(shí)測部署,驗(yàn)證其在昇騰集群中的穩(wěn)定性與高吞吐性能,充分滿足 NPU 集群環(huán)境下大規(guī)模模型部署和高效推理的需求。
▲ GPUStack + Ascend MindIE 在多節(jié)點(diǎn) NPU 集群上運(yùn)行超大模型 DeepSeek R1 671B
macOS 與 Windows 一鍵安裝包
在過往版本中,用戶在桌面環(huán)境部署 GPUStack 需依賴安裝腳本或 Python 環(huán)境,常因 Python 環(huán)境沖突、系統(tǒng)依賴缺失、環(huán)境差異或網(wǎng)絡(luò)問題而導(dǎo)致安裝失敗,同時(shí)安裝過程缺乏進(jìn)度反饋,容易中斷流程,影響初學(xué)者的上手體驗(yàn)。
為解決上述問題,GPUStack v0.7 全新推出適用于 macOS 與 Windows 平臺(tái)的原生一鍵安裝包:
- 零環(huán)境依賴:無需預(yù)裝 Python、Docker Desktop 或其他組件,雙擊即可完成安裝與啟動(dòng);
- 內(nèi)置 GPUStack Helper 運(yùn)維面板,提供一站式圖形化管理操作:
- 快速設(shè)置核心參數(shù)(如 Server / Worker 角色、端口、環(huán)境變量);
- 一鍵訪問配置目錄,方便編輯配置文件及后臺(tái)服務(wù)文件;
- 實(shí)時(shí)查看和管理 Worker 服務(wù)狀態(tài)與運(yùn)行日志,便捷訪問 Web 控制臺(tái)。
- 極大降低部署門檻:適用于本地測試、個(gè)人開發(fā)、小型部署等場景,讓開發(fā)者無需折騰即可快速上手。
這一版本顯著優(yōu)化了桌面環(huán)境下的安裝體驗(yàn),幫助開發(fā)者在本地快速完成模型部署與測試,讓本地大模型推理像安裝 App 一樣簡單自然,也為個(gè)人開發(fā)者、團(tuán)隊(duì)快速評(píng)估和體驗(yàn) GPUStack 提供了更輕量的入口。
模型使用計(jì)量與計(jì)費(fèi)數(shù)據(jù)采集
GPUStack v0.7 新增了對(duì)推理請(qǐng)求的細(xì)粒度計(jì)量能力,支持按用戶和模型維度采集調(diào)用數(shù)據(jù),涵蓋 API 請(qǐng)求次數(shù)、輸入輸出 Token 數(shù)量等關(guān)鍵指標(biāo),幫助用戶全面掌握模型服務(wù)的使用情況。
隨著模型服務(wù)逐步進(jìn)入多用戶、多模型、多場景并存的階段,透明且可追蹤的使用數(shù)據(jù)對(duì)服務(wù)治理與資源管理的重要性日益凸顯。GPUStack 為模型服務(wù)提供了可靠的數(shù)據(jù)基礎(chǔ),為構(gòu)建靈活的計(jì)費(fèi)體系、異常請(qǐng)求定位以及后續(xù)的資源配額管理等場景提供了可靠基礎(chǔ),也為企業(yè)實(shí)現(xiàn)模型服務(wù)的精細(xì)化運(yùn)營閉環(huán)奠定了堅(jiān)實(shí)支撐。

▲ v0.7 引入了對(duì)推理請(qǐng)求的細(xì)粒度計(jì)量能力
寒武紀(jì) MLU 兼容支持
在 GPUStack v0.7 中,寒武紀(jì)團(tuán)隊(duì)為社區(qū)貢獻(xiàn)了 MLU 芯片的適配支持,標(biāo)志著 GPUStack 在國產(chǎn) AI 硬件生態(tài)中的支持范圍進(jìn)一步拓展,也體現(xiàn)了平臺(tái)在推理基礎(chǔ)設(shè)施領(lǐng)域逐步獲得主流芯片廠商的認(rèn)可與合作。
目前,GPUStack 已支持統(tǒng)一調(diào)度包括 NVIDIA、AMD、Apple、昇騰、海光、摩爾線程、天數(shù)智芯、寒武紀(jì)等多種異構(gòu)算力資源,為用戶提供在異構(gòu)環(huán)境下靈活部署模型、提供穩(wěn)定推理服務(wù)的一體化能力。
隨著平臺(tái)持續(xù)拓展對(duì)國產(chǎn)芯片的適配支持,GPUStack 正成為企業(yè)在大模型國產(chǎn)化部署、異構(gòu)算力統(tǒng)一調(diào)度與高性能模型服務(wù)場景中的關(guān)鍵基礎(chǔ)平臺(tái)。
UI / UX 全面升級(jí)
GPUStack v0.7 對(duì)平臺(tái)界面進(jìn)行了全面的 UI / UX 升級(jí),優(yōu)化了導(dǎo)航結(jié)構(gòu)與交互體驗(yàn),使模型服務(wù)的使用更加高效、直觀。
- 菜單重構(gòu):主導(dǎo)航結(jié)構(gòu)更加清晰,核心功能一目了然,減少層級(jí)跳轉(zhuǎn);
- 關(guān)鍵入口常駐可見:用戶可快速訪問常用功能,無需反復(fù)展開菜單;
- 統(tǒng)一交互風(fēng)格:頁面布局更有邏輯,操作路徑更順暢,顯著降低使用門檻。
新版本界面更貼合用戶操作習(xí)慣,大幅提升功能可達(dá)性與操作效率,讓用戶能夠更專注于模型服務(wù)本身。

▲ v0.7 全新界面重構(gòu),常用功能一鍵直達(dá),大幅提升使用效率與易用性
加入社區(qū)
想要了解更多關(guān)于 GPUStack 的信息,可以訪問我們的倉庫地址:https://github.com/gpustack/gpustack。如果你對(duì) GPUStack 有任何建議,歡迎提交 GitHub issue。在體驗(yàn) GPUStack 或提交 issue 之前,請(qǐng)?jiān)谖覀兊?GitHub 倉庫上點(diǎn)亮 Star ??關(guān)注我們,也非常歡迎大家一起參與到這個(gè)開源項(xiàng)目中!
如果覺得對(duì)你有幫助,歡迎點(diǎn)贊、轉(zhuǎn)發(fā)、關(guān)注。

GPUStack v0.7 提供了 70 余項(xiàng)功能優(yōu)化與穩(wěn)定性修復(fù),涵蓋推理加速與性能優(yōu)化、開箱即用與用戶交互、生產(chǎn)落地與多場景兼容性、運(yùn)維運(yùn)營能力等多個(gè)方面,進(jìn)一步提升平臺(tái)的可用性與工程穩(wěn)定性,助力用戶輕松構(gòu)建高性能、可擴(kuò)展的大模型服務(wù)體系!
浙公網(wǎng)安備 33010602011771號(hào)