<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Ollama大模型推理場景下3090和4090性能實測

      Ollama 是一個開源的大型語言模型(LLM)部署服務工具,能讓用戶能夠輕松地在本地運行、管理和與大型語言模型進行交互。

      我們使用Ollama的快速模型部署,來實測英偉達的RTX 3090RTX 4090這兩張顯卡,在大語言模型推理場景中的性能差異。

      3090和4090的顯卡參數對比

      RTX 3090 RTX 4090
      架構 Ampere Ada Lovelace
      CUDA核心數 10,496 16,384
      顯存容量 24 GB GDDR6X 24 GB GDDR6X
      顯存帶寬 936 GB/s 1,008 GB/s
      TDP功耗 350W 450W
      FP32 算力 35.6 TFLOPS 82.6 TFLOPS
      Tensor FP16 算力 142 TFLOPS 330 TFLOPS

      3090和4090的顯存參數比較接近,顯存容量都是24GB,顯存帶寬差異也不大;算力方面,4090的單精度和Tensor FP16算力差不多是3090的2.3倍。

      Ollama大模型推理測試

      大模型選擇

      這里選擇 Qwen3的模型進行測試,考慮到3090和4090的顯存都是24GB,分別選擇一個FP16精度和一個Q4_K_M量化后的大模型進行測試:

      模型 精度 大小
      qwen3:8b fp16 16 GB
      qwen3:14b q4_K_M 9.3 GB

      借助DeepSeek 生成測試腳本,使用復雜度近似的8個prompts;MAX_TOKENS配置256,讓每次請求需要一定的生成時長便于采樣顯卡的使用指標,減少波動;同時需要模型預熱,消除第一次推理響應延時過大的問題。

      我們在GPU算力租賃平臺 晨澗云 直接租用Ollama云容器進行測試,分別創建3090和4090兩種顯卡的容器實例,啟動后訪問Open WebUI 選擇模型:

      Ollama-OpenWebUI

      然后就可以執行推理性能測試腳本,查看輸出結果。

      3090推理性能

      Ollama-Qwen3推理性能測試-3090

      4090推理性能

      Ollama-Qwen3推理性能測試-4090

      測試結果解釋

      • Latency (s):多次推理平均響應時長

      • Throughput (tokens/s):多次推理平均Token生成速度

      • VRAM (MB):多次推理平均顯存使用量

      • GPU Util (%):多次推理平均GPU使用率

      3090顯卡和4090顯卡在兩個模型推理過程中的顯存使用和GPU使用率都比較接近,所以主要比較平均響應時長平均Token生成速度兩個指標:

      qwen3:8b fp16 qwen3:14b q4_K_M
      響應時長(s) 3090 5.39 3.79
      響應時長(s) 4090 4.88 3.31
      響應時長(s) 差異 90.5% 87.3%
      Token生成速度(tokens/s) 3090 47.46 67.62
      Token生成速度(tokens/s) 4090 52.45 77.31
      Token生成速度(tokens/s) 差異 110.5% 114.3%

      4090在量化模型的推理性能相較FP16精度的模型會更突出一點,FP16精度模型推理性能4090比3090高10%左右,Q4_K_M量化模型4090比3090的推理性能高14%左右。

      但相較顯卡本身參數的算力值2.3倍的差異,在推理場景下4090的優勢并沒有想象中的那么明顯。


      Ollama因為更多考慮的是本地和邊緣算力的輕量級快速部署場景,所以在推理性能,特別是多GPU高并發場景下,不如vLLMSGLang等框架,后續準備比較在vLLM下不同顯卡的推理性能,也可以跟Ollama比較下不同大模型推理框架的性能差異。

      posted @ 2025-10-24 16:39  AI算力小知識  閱讀(54)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 激情人妻自拍中文夜夜嗨| 亚洲av色一区二区三区| 一二三三免费观看视频| 亚洲色欲色欱WWW在线| 精品国产成人一区二区| 亚洲精品亚洲人成人网| 国产精品三级国产精品高| 国产女同疯狂作爱系列| 成人网站网址导航| 亚洲精品午夜精品| 好紧好滑好湿好爽免费视频| 亚洲av日韩av一区久久| 日韩中文字幕v亚洲中文字幕| 亚洲av成人区国产精品| 久久亚洲中文字幕伊人久久大| 亚洲欧美国产日韩天堂区| 成人午夜在线观看日韩| 377P欧洲日本亚洲大胆| 申扎县| 日韩亚洲国产中文永久| 日韩有码中文字幕国产| 久久99国产乱子伦精品免费| 久久免费观看午夜成人网站| 午夜福利片1000无码免费| 国产视频一区二区三区四区视频| 少妇宾馆粉嫩10p| 成人午夜福利精品一区二区| 亚洲区精品区日韩区综合区| 五月综合激情婷婷六月| 91精品蜜臀国产综合久久| 国产av普通话对白国语| 丁香五月亚洲综合在线国内自拍| 麻豆tv入口在线看| 日本一区二区国产在线| 麻豆精品一区二区综合av| 亚洲午夜无码久久久久小说| 操操操综合网| 潘金莲高清dvd碟片| 亚洲av无码之国产精品网址蜜芽| 在线精品视频一区二区三四| 久久久久国产精品人妻|