3080 20G和3090在大模型推理場景的性能比較
這里使用Ollama部署Qwen3模型進(jìn)行推理場景的性能實測,比較3080 20G和3090 24G的差異到底多大?
RTX 3080 20G顯卡是基于3080 10G魔改的卡,目前市面比較多得被用于小規(guī)模參數(shù)的大語言模型推理場景,被認(rèn)為是性價比比3090還高的推理顯卡。
因為其在二手交易市場的價格差不多是3090的一半左右,算力租賃市場的幾個也只有3090的70%,而其算力和顯存都是3090的80%多。
之前測試過3090 24G和4090 24G兩張顯卡在大模型推理場景的性能差異,參考:
Ollama大模型推理場景下3090和4090性能實測
3080 20G和3090 24G的顯卡參數(shù)對比
| RTX 3080 20G | RTX 3090 24G | |
|---|---|---|
| 架構(gòu) | Ampere | Ampere |
| CUDA核心數(shù) | 8704 | 10496 |
| 顯存容量 | 20 GB GDDR6X | 24 GB GDDR6X |
| 顯存帶寬 | 760 GB/s | 936 GB/s |
| TDP功耗 | 320W | 350W |
| FP32 算力 | 29.8 TFLOPS | 35.6 TFLOPS |
| Tensor FP16 算力 | 119 TFLOPS | 142 TFLOPS |
對比顯卡參數(shù),很有意思的是,3080 20G在核心數(shù)量、顯存、帶寬、算力方面基本都是3090 24G的83%左右。
Ollama大模型推理測試
大模型選擇
這里選擇 Qwen3的模型進(jìn)行測試,考慮到3080顯存只有20GB,分別選擇一個FP16精度和一個Q4_K_M量化后的大模型進(jìn)行測試:
| 模型 | 精度 | 大小 |
|---|---|---|
| qwen3:8b | fp16 | 16 GB |
| qwen3:14b | q4_K_M | 9.3 GB |
借助DeepSeek 生成測試腳本,使用復(fù)雜度近似的8個prompts;MAX_TOKENS配置256,讓每次請求需要一定的生成時長便于采樣顯卡的使用指標(biāo),減少波動;同時需要模型預(yù)熱,消除第一次推理響應(yīng)延時過大的問題。
AI算力租賃平臺有 3080 20G 的不多,這里只找到了 AutoDL 和 晨澗云 兩家,創(chuàng)建3080 20G和3090 24G兩種顯卡的Ollama容器實例,啟動后訪問Open WebUI 選擇模型:

然后就可以執(zhí)行推理性能測試腳本,查看輸出結(jié)果。
3080 20G推理性能

3090 24G推理性能

測試結(jié)果解釋
-
Latency (s):多次推理平均響應(yīng)時長
-
Throughput (tokens/s):多次推理平均Token生成速度
-
VRAM (MB):多次推理平均顯存使用量
-
GPU Util (%):多次推理平均GPU使用率
3080 20G顯卡和3090 24G顯卡在兩個模型推理過程中的顯存使用和GPU使用率都比較接近,主要比較平均響應(yīng)時長及平均Token生成速度兩個指標(biāo):
| qwen3:8b fp16 | qwen3:14b q4_K_M | ||
|---|---|---|---|
| 響應(yīng)時長(s) | 3080 | 6.53 | 4.52 |
| 響應(yīng)時長(s) | 3090 | 5.39 | 3.79 |
| 響應(yīng)時長(s) | 差異 | 121.2% | 119.3% |
| Token生成速度(tokens/s) | 3080 | 39.22 | 56.64 |
| Token生成速度(tokens/s) | 3090 | 47.46 | 67.62 |
| Token生成速度(tokens/s) | 差異 | 82.6% | 83.8% |
FP16精度和Q4_K_M量化模型的推理性能 3080 20G 都是 3090 24G 的83%左右,和顯卡參數(shù)算力的差異基本一致。
相比二手市場3080 20G價格只有3090的一般多點,GPU算力租賃市場3080 20G的價格也只有3090的70%,所以在性價比上3080 20G還是有其優(yōu)勢的,前提是3080 20G的顯存能裝得下推理的模型。
使用Ollama部署Qwen3模型進(jìn)行推理場景的性能實測,比較3080 20G和3090 24G的差異到底多大?
RTX 3080 20G顯卡是基于3080 10G魔改的卡,目前市面比較多得被用于小規(guī)模參數(shù)的大語言模型推理場景,被認(rèn)為是性價比比3090還高的推理顯卡。
對比顯卡參數(shù),3080 20G在核心數(shù)量、顯存、帶寬、算力方面基本都是3090 24G的83%左右。
浙公網(wǎng)安備 33010602011771號