摘要:
在部署大模型推理服務的時候,Ollama和vLLM是目前最常見的兩個大模型部署工具,這里選擇英偉達的RTX 3090比較Ollama和vLLM這兩個工具在大語言模型推理場景下性能表現,使用Qwen3模型、控制同樣的API推理參數,測試并發調用下的性能表現,來看看Ollama和vLLM分別適用于什么場景? 閱讀全文
在部署大模型推理服務的時候,Ollama和vLLM是目前最常見的兩個大模型部署工具,這里選擇英偉達的RTX 3090比較Ollama和vLLM這兩個工具在大語言模型推理場景下性能表現,使用Qwen3模型、控制同樣的API推理參數,測試并發調用下的性能表現,來看看Ollama和vLLM分別適用于什么場景? 閱讀全文
posted @ 2025-11-05 11:35
AI算力小知識
閱讀(0)
評論(0)
推薦(0)
使用Ollama部署Qwen3模型進行推理場景的性能實測,比較3080 20G和3090 24G的差異到底多大?
RTX 3080 20G顯卡是基于3080 10G魔改的卡,目前市面比較多得被用于小規模參數的大語言模型推理場景,被認為是性價比比3090還高的推理顯卡。
對比顯卡參數,3080 20G在核心數量、顯存、帶寬、算力方面基本都是3090 24G的83%左右。
使用Ollama的快速模型部署,來實測英偉達的RTX 3090和RTX 4090這兩張顯卡,在大語言模型推理場景中的性能差異。
選擇 Qwen3的模型進行測試,考慮到顯存都是24GB,分別選擇一個FP16精度和一個Q4_K_M量化后的大模型進行測試。
選擇了英偉達的RTX 3090和RTX 4090兩張顯卡,在實際的深度學習場景進行性能實測,基于ResNet-50模型訓練比較下被稱為「上一代卡皇」的 3090 和「當前消費級主力」的 4090 的實際性能到底差多少?
AI時代大模型的應用已經滲透到日常的角角落落,同時算力變成了普遍的需求,在購買顯卡或者租用GPU云算力的時候,如何選擇合適的顯卡呢,需要關注哪些參數?
本文以最常見的英偉達顯卡為例,來說說顯卡的各種參數是如何影響算力性能的。
浙公網安備 33010602011771號