<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      3080 20G和3090在大模型推理場景的性能比較

      這里使用Ollama部署Qwen3模型進(jìn)行推理場景的性能實測,比較3080 20G和3090 24G的差異到底多大?

      RTX 3080 20G顯卡是基于3080 10G魔改的卡,目前市面比較多得被用于小規(guī)模參數(shù)的大語言模型推理場景,被認(rèn)為是性價比比3090還高的推理顯卡。

      因為其在二手交易市場的價格差不多是3090的一半左右,算力租賃市場的幾個也只有3090的70%,而其算力和顯存都是3090的80%多。

      之前測試過3090 24G和4090 24G兩張顯卡在大模型推理場景的性能差異,參考:
      Ollama大模型推理場景下3090和4090性能實測

      3080 20G和3090 24G的顯卡參數(shù)對比

      RTX 3080 20G RTX 3090 24G
      架構(gòu) Ampere Ampere
      CUDA核心數(shù) 8704 10496
      顯存容量 20 GB GDDR6X 24 GB GDDR6X
      顯存帶寬 760 GB/s 936 GB/s
      TDP功耗 320W 350W
      FP32 算力 29.8 TFLOPS 35.6 TFLOPS
      Tensor FP16 算力 119 TFLOPS 142 TFLOPS

      對比顯卡參數(shù),很有意思的是,3080 20G在核心數(shù)量、顯存、帶寬、算力方面基本都是3090 24G的83%左右。

      Ollama大模型推理測試

      大模型選擇

      這里選擇 Qwen3的模型進(jìn)行測試,考慮到3080顯存只有20GB,分別選擇一個FP16精度和一個Q4_K_M量化后的大模型進(jìn)行測試:

      模型 精度 大小
      qwen3:8b fp16 16 GB
      qwen3:14b q4_K_M 9.3 GB

      借助DeepSeek 生成測試腳本,使用復(fù)雜度近似的8個prompts;MAX_TOKENS配置256,讓每次請求需要一定的生成時長便于采樣顯卡的使用指標(biāo),減少波動;同時需要模型預(yù)熱,消除第一次推理響應(yīng)延時過大的問題。

      AI算力租賃平臺有 3080 20G 的不多,這里只找到了 AutoDL晨澗云 兩家,創(chuàng)建3080 20G和3090 24G兩種顯卡的Ollama容器實例,啟動后訪問Open WebUI 選擇模型:

      Ollama-OpenWebUI

      然后就可以執(zhí)行推理性能測試腳本,查看輸出結(jié)果。

      3080 20G推理性能

      Ollama-Qwen3推理性能測試-3080

      3090 24G推理性能

      Ollama-Qwen3推理性能測試-3090

      測試結(jié)果解釋

      • Latency (s):多次推理平均響應(yīng)時長

      • Throughput (tokens/s):多次推理平均Token生成速度

      • VRAM (MB):多次推理平均顯存使用量

      • GPU Util (%):多次推理平均GPU使用率

      3080 20G顯卡和3090 24G顯卡在兩個模型推理過程中的顯存使用和GPU使用率都比較接近,主要比較平均響應(yīng)時長平均Token生成速度兩個指標(biāo):

      qwen3:8b fp16 qwen3:14b q4_K_M
      響應(yīng)時長(s) 3080 6.53 4.52
      響應(yīng)時長(s) 3090 5.39 3.79
      響應(yīng)時長(s) 差異 121.2% 119.3%
      Token生成速度(tokens/s) 3080 39.22 56.64
      Token生成速度(tokens/s) 3090 47.46 67.62
      Token生成速度(tokens/s) 差異 82.6% 83.8%

      FP16精度和Q4_K_M量化模型的推理性能 3080 20G 都是 3090 24G 的83%左右,和顯卡參數(shù)算力的差異基本一致。

      相比二手市場3080 20G價格只有3090的一般多點,GPU算力租賃市場3080 20G的價格也只有3090的70%,所以在性價比上3080 20G還是有其優(yōu)勢的,前提是3080 20G的顯存能裝得下推理的模型。

      posted @ 2025-10-31 17:55  AI算力小知識  閱讀(26)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产不卡一区不卡二区| 人人澡超碰碰97碰碰碰| 亚洲精品成人一二三专区| 国产精品国语对白一区二区 | 最新国产精品好看的精品| 手机无码人妻一区二区三区免费| 野花社区www高清视频| 日本高清在线观看WWW色| 98精品全国免费观看视频| 亚洲av午夜成人片| 欧美老熟妇乱子伦牲交视频| 国产精品天干天干综合网| 久久久久蜜桃精品成人片公司| 亚洲国产精品一二三区| 又长又粗又爽又高潮的视频| 国产成人午夜福利精品| 日韩美女亚洲性一区二区| 精品久久精品久久精品久久| 亚洲熟女乱色一区二区三区| 性夜夜春夜夜爽夜夜免费视频| 安图县| 日韩人妻少妇一区二区三区| 中文字幕va一区二区三区| 亚洲春色在线视频| 国产乱码一区二区三区免费| 日韩人妻无码一区二区三区久久| 少妇人妻偷人精品无码视频| 国产精品熟妇视频国产偷人| 国产成人亚洲综合| 国产在线乱子伦一区二区| 国产成人精品亚洲午夜| 国产精一区二区黑人巨大| 色狠狠色噜噜AV一区| 乃东县| 亚洲美免无码中文字幕在线| 一区二区中文字幕久久| 国产超碰人人做人人爱ⅴa| 国产一区二区三区九九视频| 国产国产午夜福利视频| 国产成人无码专区| 在线a亚洲老鸭窝天堂|