0.9B PaddleOCR-VL 登頂 SOTA!GPUStack 高效推理部署實戰指南
http://www.rzrgm.cn/gpustack/p/19154159
在全球多模態文檔解析的激烈競賽中,百度憑借 PaddleOCR-VL 模型給行業投下了一顆重磅炸彈。這個僅有 0.9B 參數量的輕量級多模態模型,不僅在 OmniDocBench V1.5 榜單上以 92.6 的綜合得分登頂全球,更在文本識別、公式識別、表格理解和閱讀順序四大核心能力上全面斬獲 SOTA,刷新了文檔解析領域的性能天花板。
PaddleOCR-VL 的核心組件是 PaddleOCR-VL-0.9B,它創新性地將 NaViT 風格的動態分辨率視覺編碼器與輕量級 ERNIE-4.5-0.3B 語言模型相結合,兼具結構理解力與資源效率。它不僅能精準解析多欄報紙、嵌套表格、數學公式,還能智能還原文檔閱讀順序,在真實復雜場景下展現出了近乎人類級的理解能力。支持 109 種語言的它,堪稱當前最靈活、最強大的文檔解析模型之一。

如何在本地或集群環境中高效、穩定地部署這一 SOTA 模型?本文將詳細演示如何通過 GPUStack 平臺,在本地環境中完成 PaddleOCR-VL 模型的推理部署,并展示其在真實文檔解析任務中的表現。
部署 GPUStack
首先,參考 GPUStack 官方文檔完成安裝(https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/)。推薦容器化部署方式,在 NVIDIA GPU 服務器上,根據文檔要求完成對應版本的 NVIDIA 驅動、Docker 和 NVIDIA Container Toolkit 安裝后,通過 Docker 啟動 GPUStack 服務。
以下測試在 NVIDIA RTX4090 GPU 上進行:
檢查 NVIDIA 驅動和 NVIDIA Container Toolkit 已正常安裝配置:
nvidia-smi >/dev/null 2>&1 && echo "NVIDIA driver OK" || (echo "NVIDIA driver issue"; exit 1) && docker info 2>/dev/null | grep -q "Default Runtime: nvidia" && echo "NVIDIA Container Toolkit OK" || (echo "NVIDIA Container Toolkit not configured"; exit 1)

部署 GPUStack:
docker run -d --name gpustack \
--restart=unless-stopped \
--gpus all \
--network=host \
--ipc=host \
-v gpustack-data:/var/lib/gpustack \
gpustack-registry.cn-hangzhou.cr.aliyuncs.com/gpustack/gpustack:v0.7.1-paddle-ocr \
--disable-rpc-servers
查看容器日志,確認 GPUStack 已正常運行:
docker logs -f gpustack

若容器日志顯示服務啟動正常,使用以下命令獲取 GPUStack 控制臺的初始登錄密碼:
docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password
GPUStack 會在部署模型時進行兼容性檢查,PaddleOCR-VL 的模型架構目前尚未在 GPUStack 正式版本中支持,需要用自定義的 vLLM 版本繞過架構檢查,執行以下命令在 /var/lib/gpustack/bin/ 目錄下創建自定義 vLLM 版本的軟鏈:
docker exec -it gpustack ln -sf /usr/local/bin/vllm /var/lib/gpustack/bin/vllm_paddle_ocr
在瀏覽器中通過服務器 IP 和 80 端口訪問 GPUStack 控制臺(http://YOUR_HOST_IP),使用默認用戶名 admin 和上一步獲取的初始密碼登錄。登錄 GPUStack 后,在資源菜單可查看節點的 GPU 資源:

下載 PaddleOCR-VL 模型
在 GPUStack UI,導航到 資源 - 模型文件,選擇添加模型文件,可以選擇從 Hugging Face 或 ModelScope 聯網搜索并下載 PaddleOCR-VL 模型。國內網絡建議從 ModelScope 下載:

等待模型下載完成:

部署 PaddleOCR-VL 模型
確認模型下載完成后,點擊模型文件右側的部署按鈕,部署模型。由于 PaddleOCR-VL-0.9B 模型位于下載的模型目錄的 PaddleOCR-VL-0.9B 子目錄下,需要修改為指向該目錄進行部署。

在模型路徑輸入框,將子路徑補充完整:
/var/lib/gpustack/cache/model_scope/PaddlePaddle/PaddleOCR-VL/PaddleOCR-VL-0.9B

展開高級配置,設置模型類別為 LLM。在后端版本中,填寫自定義的后端版本為 paddle_ocr(指向前面步驟軟鏈的 /var/lib/gpustack/bin/vllm_paddle_ocr),GPUStack 會自動調用運行模型。
在后端參數設置以下啟動參數:
--trust-remote-code(兼容性檢查提示需要信任自定義代碼執行)
--max-model-len=32768 (設置上下文大小)
--chat-template=/opt/templates/chat_template.jinja (設置該模型要求的 Chat Template)

vLLM 默認占用 GPU 的90%顯存,若需要部署多個模型,可以通過 --gpu-memory-utilization 參數手動控制模型的 GPU 分配比例(取值范圍 0~1):

保存部署,等待模型啟動完成,確認模型正常運行(Running):

然后可以在試驗場測試模型,更多用法參考 PaddleOCR-VL 官方文檔:
https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/PaddleOCR-VL.html
OCR 效果測試
注意:為確保測試效果,推薦按照
PaddleOCR-VL官方文檔說明,將Temperature設置為0.1,Top P設置為0.95。
綜合文檔解析

文本

表格

公式

圖表

在大模型與推理技術高速演進的浪潮中,新模型層出不窮,推理框架和技術路線也愈加多元。不同模型往往需要特定的后端、配置或依賴,如何在不犧牲靈活性和性能的前提下快速接入并高效運行,已經成為構建 AI 基礎設施的關鍵課題。
在此背景下,GPUStack 正在加速迭代。下一個版本,我們將引入可插拔后端機制與通用 API 代理 —— 讓用戶能夠自由定制任意的推理引擎與運行配置,像搭積木一樣靈活打造 MaaS 平臺。無論是前沿大模型,還是傳統機器學習模型,都能在同一平臺上被快速加載、無縫調用。
讓每一個開發者、每一家企業,都能更輕松地跟上大模型技術的快速更迭,將創新更快地落地到真實場景中。我們共同見證 GPUStack 的下一次蛻變!
加入社區
想要了解更多關于 GPUStack 的信息,可以訪問我們的倉庫地址:https://github.com/gpustack/gpustack。如果你對 GPUStack 有任何建議,歡迎提交 GitHub issue。在體驗 GPUStack 或提交 issue 之前,請在我們的 GitHub 倉庫上點亮 Star ??關注我們,也非常歡迎大家一起參與到這個開源項目中!
如果在使用過程中遇到任何問題,歡迎隨時加入我們的 Discord 社區:[ https://discord.gg/VXYJzuaqwD ],也可以掃碼添加 GPUStack 小助手聯系加入 GPUStack 微信交流群,獲得 GPUStack 團隊的技術支持,或與社區愛好者共同探討交流。

浙公網安備 33010602011771號