Ollama和vLLM大模型推理性能對比實測
在部署大模型推理服務的時候,選擇合適的部署工具可以讓我們事半功倍,怎么在對應的場景下選擇合適的部署工具,用于平衡部署的成本和推理的性能?
Ollama和vLLM是目前最常見的兩個大模型部署工具,我們先問問DeepSeek看看這兩個部署工具的功能特性,分別適用于什么場景?
Ollama和vLLM特性比較
| 特性維度 | Ollama | vLLM |
|---|---|---|
| 設計定位 | 開發(fā)者友好的本地體驗工具 | 生產(chǎn)級的高性能推理引擎 |
| 架構特點 | 單體應用,內(nèi)置模型管理 | 專注推理后端,需要API封裝 |
| 核心技術 | 基于GGML/GGUF優(yōu)化,CPU+GPU混合 | PagedAttention,連續(xù)批處理 |
| 易用性 | ?????(極簡) | ???(需要集成) |
| 性能 | ???(良好) | ?????(卓越) |
| 生態(tài)系統(tǒng) | ????(豐富模型庫) | ????(工業(yè)標準) |
| 資源需求 | 相對較低 | 相對較高 |
| 適用場景 | 1. 個人開發(fā)與實驗 2. 資源受限環(huán)境 3. 多模型管理需求 |
1. 高并發(fā)生產(chǎn)環(huán)境 2. 對吞吐量要求極高的場景 3. 企業(yè)級部署 |
這里選擇英偉達的RTX 3090比較Ollama和vLLM這兩個工具在大語言模型推理場景下性能表現(xiàn),控制同樣的模型、同樣的API推理參數(shù),并測試并發(fā)調(diào)用下的性能表現(xiàn)。
在GPU算力租用平臺 晨澗云 分別租用3090顯卡資源的Ollama和vLLM的云容器進行測試。
模型選擇與參數(shù)控制
這里選擇 Qwen3的模型進行測試,考慮到3090的顯存是24GB,選擇一個FP16精度的qwen3:8b模型進行測試。
借助DeepSeek 生成測試腳本,調(diào)整腳本控制變量:
-
使用復雜度近似的N個prompts;
-
MAX_TOKENS配置256,讓每次請求需要一定的生成時長便于采樣顯卡的使用指標,減少波動; -
選擇
[1, 4, 8, 16]4種BATCH_SIZES測試不同并發(fā)度下的性能表現(xiàn); -
每輪測試執(zhí)行3次推理,指標取平均;
-
同時需要模型預熱,消除第一次推理響應延時過大的問題。
然后就可以執(zhí)行推理性能測試腳本,查看輸出結果。
Ollama推理性能

vLLM推理性能

測試結果解釋
-
Batch Size:一次推理調(diào)用的并發(fā)prompt數(shù)量
-
平均耗時 (s):多次推理平均響應時長
-
平均吞吐量 (tokens/s):多次推理平均Token生成速度
-
平均顯存 (MB):多次推理平均顯存使用量
-
平均GPU使用率(%):多次推理平均GPU使用率
vLLM的顯存占用比Ollama略高,GPU使用率比較接近,主要比較平均響應時長及平均Token生成速度兩個指標:
| Batch Size | 1 | 8 | 16 | |
|---|---|---|---|---|
| 響應時長(s) | Ollama | 5.68 | 7.64 | 15.6 |
| 響應時長(s) | vLLM | 5.44 | 5.82 | 6.42 |
| 響應時長(s) | 差異 | 104.4% | 131.3% | 243.0% |
| Token生成速度(tokens/s) | Ollama | 45.1 | 268.0 | 262.9 |
| Token生成速度(tokens/s) | vLLM | 47.1 | 351.9 | 638.4 |
| Token生成速度(tokens/s) | 差異 | 95.6% | 76.2% | 41.2% |
——Ollama的并發(fā)數(shù)量超過8之后有明顯的性能瓶頸,調(diào)整 OLLAMA_NUM_PARALLEL 參數(shù)還是上不去,不知道是不是需要調(diào)整其他參數(shù)。
總體來說,順序調(diào)用場景(Batch Size=1)Ollama和vLLM性能接近;并發(fā)調(diào)用場景vLLM的性能完勝,而且并發(fā)度越高的場景下vLLM的性能優(yōu)勢越明顯。
這個測試基于單卡的推理場景,多卡下面并發(fā)調(diào)用的性能表現(xiàn)可能又會有差異。
在部署大模型推理服務的時候,Ollama和vLLM是目前最常見的兩個大模型部署工具,這里選擇英偉達的RTX 3090比較Ollama和vLLM這兩個工具在大語言模型推理場景下性能表現(xiàn),使用Qwen3模型、控制同樣的API推理參數(shù),測試并發(fā)調(diào)用下的性能表現(xiàn),來看看Ollama和vLLM分別適用于什么場景?
浙公網(wǎng)安備 33010602011771號