Ollama部署下載Qwen3-Embedding(含0.6B、4B、8B等)向量模型和Qwen3-Reranker(含0.6B、4B、8B等)重排模型的方法
第一步,安裝Ollama。打開官網下載:https://ollama.com/download
可以選擇Download for Windows來下載。然后雙擊OllamaSetup.exe按提示安裝完成。
第二步,打開Windows PowerShell,或者CMD命令。
如下載Qwen3-Embedding-0.6B,可以輸入Ollama命令:
如下載Qwen3-Reranker-0.6B,可以輸入Ollama命令:
接下來等待下載完成即可。
下面列出Qwen3-Embedding和Qwen3-Reranker各個版本的Ollama安裝命令。
Qwen3-Embedding-0.6B系列:
ollama run dengcao/Qwen3-Embedding-0.6B:Q8_0
ollama run dengcao/Qwen3-Embedding-0.6B:F16
Qwen3-Embedding-4B系列:
ollama run dengcao/Qwen3-Embedding-4B:Q4_K_M
ollama run dengcao/Qwen3-Embedding-4B:Q5_K_M
ollama run dengcao/Qwen3-Embedding-4B:Q8_0
Qwen3-Embedding-8B系列:
ollama run dengcao/Qwen3-Embedding-8B:Q4_K_M
ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Embedding-8B:Q8_0
ollama run dengcao/Qwen3-Embedding-8B:F16
Qwen3-Reranker-0.6B系列:
ollama run dengcao/Qwen3-Reranker-0.6B:Q8_0
ollama run dengcao/Qwen3-Reranker-0.6B:F16
Qwen3-Reranker-4B系列:
ollama run dengcao/Qwen3-Reranker-4B:Q4_K_M
ollama run dengcao/Qwen3-Reranker-4B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-4B:Q8_0
Qwen3-Reranker-8B系列:
ollama run dengcao/Qwen3-Reranker-8B:Q3_K_M
ollama run dengcao/Qwen3-Reranker-8B:Q4_K_M
ollama run dengcao/Qwen3-Reranker-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-8B:Q8_0
ollama run dengcao/Qwen3-Reranker-8B:F16
關于量化版本的說明:
q8_0:與浮點數16幾乎無法區分。資源使用率高,速度慢。不建議大多數用戶使用。
q6_k:將Q8_K用于所有張量。
q5_k_m:將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量,否則Q5_K。
q5_0: 原始量化方法,5位。精度更高,資源使用率更高,推理速度更慢。
q4_k_m:將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量,否則Q4_K
q4_0:原始量化方法,4 位。
q3_k_m:將 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 張量,否則Q3_K
q2_k:將 Q4_K 用于 attention.vw 和 feed_forward.w2 張量,Q2_K用于其他張量。
根據經驗,建議使用 Q5_K_M,因為它保留了模型的大部分性能。或者,如果要節省一些內存,可以使用 Q4_K_M。
Qwen3深夜上新,Embedding系列和Reranker系列全新登場!
它專為文本表征、檢索與排序任務設計,旨在將文本(如句子、段落)轉換為高質量的向量表示,以便在語義搜索、問答系統、推薦引擎等應用中更有效地處理和理解自然語言。
可用于文檔檢索、RAG、分類、情感分析、檢索等任務。
它在Qwen3基礎模型上訓練而來,充分發揮Qwen3的多語言優勢。
一共有0.6B/4B/8B三種尺寸,8B版本在MTEB多語言Leaderboard榜單中排名第一,性能超越一眾商業API服務。


浙公網安備 33010602011771號