3080 20G和3090在大模型推理場景的性能比較

使用Ollama部署Qwen3模型進(jìn)行推理場景的性能實測，比較3080 20G和3090 24G的差異到底多大？ RTX 3080 20G顯卡是基于3080 10G魔改的卡，目前市面比較多得被用于小規(guī)模參數(shù)的大語言模型推理場景，被認(rèn)為是性價比比3090還高的推理顯卡。對比顯卡參數(shù)，3080 20G在核心數(shù)量、顯存、帶寬、算力方面基本都是3090 24G的83%左右。

這里使用Ollama部署Qwen3模型進(jìn)行推理場景的性能實測，比較3080 20G和3090 24G的差異到底多大？

RTX 3080 20G顯卡是基于3080 10G魔改的卡，目前市面比較多得被用于小規(guī)模參數(shù)的大語言模型推理場景，被認(rèn)為是性價比比3090還高的推理顯卡。

因為其在二手交易市場的價格差不多是3090的一半左右，算力租賃市場的幾個也只有3090的70%，而其算力和顯存都是3090的80%多。

之前測試過3090 24G和4090 24G兩張顯卡在大模型推理場景的性能差異，參考：
Ollama大模型推理場景下3090和4090性能實測

3080 20G和3090 24G的顯卡參數(shù)對比

	RTX 3080 20G	RTX 3090 24G
架構(gòu)	Ampere	Ampere
CUDA核心數(shù)	8704	10496
顯存容量	20 GB GDDR6X	24 GB GDDR6X
顯存帶寬	760 GB/s	936 GB/s
TDP功耗	320W	350W
FP32 算力	29.8 TFLOPS	35.6 TFLOPS
Tensor FP16 算力	119 TFLOPS	142 TFLOPS

對比顯卡參數(shù)，很有意思的是，3080 20G在核心數(shù)量、顯存、帶寬、算力方面基本都是3090 24G的83%左右。

Ollama大模型推理測試

大模型選擇

這里選擇 Qwen3的模型進(jìn)行測試，考慮到3080顯存只有20GB，分別選擇一個FP16精度和一個Q4_K_M量化后的大模型進(jìn)行測試：

模型	精度	大小
qwen3:8b	fp16	16 GB
qwen3:14b	q4_K_M	9.3 GB

借助DeepSeek 生成測試腳本，使用復(fù)雜度近似的8個prompts；MAX_TOKENS配置256，讓每次請求需要一定的生成時長便于采樣顯卡的使用指標(biāo)，減少波動；同時需要模型預(yù)熱，消除第一次推理響應(yīng)延時過大的問題。

AI算力租賃平臺有 3080 20G 的不多，這里只找到了 AutoDL 和晨澗云兩家，創(chuàng)建3080 20G和3090 24G兩種顯卡的Ollama容器實例，啟動后訪問Open WebUI 選擇模型：

然后就可以執(zhí)行推理性能測試腳本，查看輸出結(jié)果。

3080 20G推理性能

3090 24G推理性能

測試結(jié)果解釋

Latency (s)：多次推理平均響應(yīng)時長
Throughput (tokens/s)：多次推理平均Token生成速度
VRAM (MB)：多次推理平均顯存使用量
GPU Util (%)：多次推理平均GPU使用率

3080 20G顯卡和3090 24G顯卡在兩個模型推理過程中的顯存使用和GPU使用率都比較接近，主要比較平均響應(yīng)時長及平均Token生成速度兩個指標(biāo)：

		qwen3:8b fp16	qwen3:14b q4_K_M
響應(yīng)時長(s)	3080	6.53	4.52
響應(yīng)時長(s)	3090	5.39	3.79
響應(yīng)時長(s)	差異	121.2%	119.3%
Token生成速度(tokens/s)	3080	39.22	56.64
Token生成速度(tokens/s)	3090	47.46	67.62
Token生成速度(tokens/s)	差異	82.6%	83.8%

FP16精度和Q4_K_M量化模型的推理性能 3080 20G 都是 3090 24G 的83%左右，和顯卡參數(shù)算力的差異基本一致。

相比二手市場3080 20G價格只有3090的一般多點，GPU算力租賃市場3080 20G的價格也只有3090的70%，所以在性價比上3080 20G還是有其優(yōu)勢的，前提是3080 20G的顯存能裝得下推理的模型。

posted @ 2025-10-31 17:55 AI算力小知識閱讀(26) 評論(0) 收藏舉報

刷新頁面返回頂部