Ollama和vLLM大模型推理性能對比實測

在部署大模型推理服務的時候，Ollama和vLLM是目前最常見的兩個大模型部署工具，這里選擇英偉達的RTX 3090比較Ollama和vLLM這兩個工具在大語言模型推理場景下性能表現(xiàn)，使用Qwen3模型、控制同樣的API推理參數(shù)，測試并發(fā)調(diào)用下的性能表現(xiàn)，來看看Ollama和vLLM分別適用于什么場景？

在部署大模型推理服務的時候，選擇合適的部署工具可以讓我們事半功倍，怎么在對應的場景下選擇合適的部署工具，用于平衡部署的成本和推理的性能？

Ollama和vLLM是目前最常見的兩個大模型部署工具，我們先問問DeepSeek看看這兩個部署工具的功能特性，分別適用于什么場景？

Ollama和vLLM特性比較

特性維度	Ollama	vLLM
設計定位	開發(fā)者友好的本地體驗工具	生產(chǎn)級的高性能推理引擎
架構特點	單體應用，內(nèi)置模型管理	專注推理后端，需要API封裝
核心技術	基于GGML/GGUF優(yōu)化，CPU+GPU混合	PagedAttention，連續(xù)批處理
易用性	?????（極簡）	???（需要集成）
性能	???（良好）	?????（卓越）
生態(tài)系統(tǒng)	????（豐富模型庫）	????（工業(yè)標準）
資源需求	相對較低	相對較高
適用場景	1. 個人開發(fā)與實驗 2. 資源受限環(huán)境 3. 多模型管理需求	1. 高并發(fā)生產(chǎn)環(huán)境 2. 對吞吐量要求極高的場景 3. 企業(yè)級部署

這里選擇英偉達的RTX 3090比較Ollama和vLLM這兩個工具在大語言模型推理場景下性能表現(xiàn)，控制同樣的模型、同樣的API推理參數(shù)，并測試并發(fā)調(diào)用下的性能表現(xiàn)。

在GPU算力租用平臺晨澗云分別租用3090顯卡資源的Ollama和vLLM的云容器進行測試。

模型選擇與參數(shù)控制

這里選擇 Qwen3的模型進行測試，考慮到3090的顯存是24GB，選擇一個FP16精度的qwen3:8b模型進行測試。

借助DeepSeek 生成測試腳本，調(diào)整腳本控制變量：

使用復雜度近似的N個prompts；
MAX_TOKENS配置256，讓每次請求需要一定的生成時長便于采樣顯卡的使用指標，減少波動；
選擇[1, 4, 8, 16] 4種BATCH_SIZES測試不同并發(fā)度下的性能表現(xiàn)；
每輪測試執(zhí)行3次推理，指標取平均；
同時需要模型預熱，消除第一次推理響應延時過大的問題。

然后就可以執(zhí)行推理性能測試腳本，查看輸出結果。

Ollama推理性能

vLLM推理性能

測試結果解釋

Batch Size：一次推理調(diào)用的并發(fā)prompt數(shù)量
平均耗時 (s)：多次推理平均響應時長
平均吞吐量 (tokens/s)：多次推理平均Token生成速度
平均顯存 (MB)：多次推理平均顯存使用量
平均GPU使用率(%)：多次推理平均GPU使用率

vLLM的顯存占用比Ollama略高，GPU使用率比較接近，主要比較平均響應時長及平均Token生成速度兩個指標：

	Batch Size	1	8	16
響應時長(s)	Ollama	5.68	7.64	15.6
響應時長(s)	vLLM	5.44	5.82	6.42
響應時長(s)	差異	104.4%	131.3%	243.0%
Token生成速度(tokens/s)	Ollama	45.1	268.0	262.9
Token生成速度(tokens/s)	vLLM	47.1	351.9	638.4
Token生成速度(tokens/s)	差異	95.6%	76.2%	41.2%

——Ollama的并發(fā)數(shù)量超過8之后有明顯的性能瓶頸，調(diào)整 OLLAMA_NUM_PARALLEL 參數(shù)還是上不去，不知道是不是需要調(diào)整其他參數(shù)。

總體來說，順序調(diào)用場景（Batch Size=1）Ollama和vLLM性能接近；并發(fā)調(diào)用場景vLLM的性能完勝，而且并發(fā)度越高的場景下vLLM的性能優(yōu)勢越明顯。

這個測試基于單卡的推理場景，多卡下面并發(fā)調(diào)用的性能表現(xiàn)可能又會有差異。

posted @ 2025-11-05 11:35 AI算力小知識閱讀(5) 評論(0) 收藏舉報

刷新頁面返回頂部