摘要:
目錄QwQ優勢(王爆 DeepSeek R1蒸餾模型組。) 模型評測。 QwQ 32B VS DeepSeek R1 從以下維度評測 問答 翻譯 角色扮演 長文本編寫 數學 編程 科研 邏輯推理 各方面指標略低于R1 QwQ優勢(王爆 DeepSeek R1蒸餾模型組。) 幻覺不如 DeepSeek 閱讀全文
posted @ 2025-11-05 16:44
向著朝陽
閱讀(3)
評論(0)
推薦(0)
摘要:
目錄背景和價值一、通義千問(Qwen)模型的分類體系1. Qwen(主系列) —— 通用大語言模型2. QWQ(推理專家系列) —— 專注數學與代碼3. Qwen-Audio / Qwen-VL / Qwen2-VL —— 多模態系列4. Qwen-Max / Qwen-Plus / Qwen-Tu 閱讀全文
posted @ 2025-11-05 16:28
向著朝陽
閱讀(8)
評論(0)
推薦(0)
摘要:
目錄背景和價值一、推理型智能體(綁定reasoning模型)二、基礎型智能體(綁定basic模型)三、設計邏輯總結參考資料 背景和價值 以下是 deer-flow 的大模型配置如下鏈接 https://github.com/bytedance/deer-flow/blob/main/docs/con 閱讀全文
posted @ 2025-11-05 16:16
向著朝陽
閱讀(4)
評論(0)
推薦(0)
摘要:
目錄概念準確率精確率召回率F1基準測試MLLU 綜合知識評測HellaSwag詳解:常識推理HumanEval詳解:代碼生成準確度評估GSM8K詳解:數學推理TruthfulQA基準詳解MT-Bench詳解:對話能力中文基準:C-Eval和SuperCLUE測試評估的挑戰:基準過擬合評估未來評測趨勢 閱讀全文
posted @ 2025-11-05 10:25
向著朝陽
閱讀(5)
評論(0)
推薦(0)

浙公網安備 33010602011771號