Qwen3接入評測，最強開源模型更懂Graph了嗎？

Chat2Graph 屆時已將 Qwen3 接入作為基礎模型服務，并在第一時間對其在圖領域的任務上的表現進行了評測。

今日凌晨，阿里開源Qwen3，推理成本大幅下降，性能全面超越 DeepSeek-R1、OpenAI-o1 等，問鼎全球最強開源模型。在代碼、數學、通用能力各項性能指標中，Qwen3都名列前茅。與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，表現出極具競爭力的結果。

而就在 4 天前，我們剛發布了業內首個圖原生智能體系統系統 Chat2Graph，旨在通過智能體技術高效解決用圖問題，同時深度融合「Graph+AI」技術增強智能體的推理效果。開源項目鏈接：https://github.com/TuGraph-family/chat2graph。

Chat2Graph視頻介紹：https://www.bilibili.com/video/BV15CjPztEgg

Chat2Graph 屆時已將 Qwen3 接入作為基礎模型服務，并在第一時間對其在圖領域的任務上的表現進行了評測。

對比模型

綜合性能、推理能力、價格三個因素，我們從挑選如下三個模型做對比分析：

Qwen3：最強開源大模型，支持 thinking/no-thinking 兩種模式。
OpenAI o3-mini：o 系列閉源模型，mini 版本推理速度快、tokens 價格適中。
Gemini 2.5 flash：最新的 Gemini 系列閉源模型，flash 版本推理速度極快，tokens 價格非常便宜。

圖領域任務

我們使用了同一個問題在Chat2Graph上進行測試：

根據「羅密歐與朱麗葉」的故事構建圖譜。然后，你還要查詢圖數據庫，告訴我故事中出現了多少人物角色。然后進行深度分析，計算出最有影響力的節點。

實驗結果

整體實驗結果如下表所示。

	Qwen3	OpenAI o3-mini	Gemini 2.5 flash
圖譜規模	10 實體 11 關系	4 實體 3 關系	25 實體 30 關系
抽取人物數（共14位）	8 位	2 位	13 位
調用圖算法	PageRank、BC	PageRank	PageRank
工具調用次數	32 次	30 次（失敗 1 次）	50 次
總執行時間	30 分鐘	13 分鐘	15 分鐘
輸出格式豐富度	高	中	中

具體分析來看：

Qwen3：
- 抽取：能力一般，主要弱點在于數據提取階段，只識別了8/14的人物，構建的圖譜規模相對較小，影響了后續任務的基礎。
- 分析：能力突出，Qwen3 在圖分析階段表現最好，不僅調用了PageRank 算法，還調用了 BC 算法，并結合兩者進行了深度分析，展現了較強的分析解釋能力。輸出格式也最豐富。
- 效率：一般，Qwen3 在三個模型中執行時間最長（30分鐘）。但是在平均執行效率（執行時間/圖譜規模）上和 OpenAI o3-mini 基本持平。
- 綜合評定：★★★
OpenAI o3-mini：
- 抽取：能力較差，僅提取了極少量的實體和關系（4實體，3關系），人物提取準確率最低（2/14）。構建的知識圖譜過于稀疏，無法有效支持后續任務。
- 分析：能力一般，在 Schema 設計、復雜工具（多參數的 PageRank 算法）調用、圖查詢語句生成方面表現尚可，但整體效果因數據基礎薄弱而大打折扣。輸出格式豐富度一般。
- 效率：一般，o3-mini 雖然總時間最短，但其極低的圖譜質量產出，導致效率指標并不理想。但這可能是犧牲了信息提取完整性的結果（被評價為學習了“偷懶”技能）。
- 綜合評定：★★
Gemini 2.5 flash：
- 抽取：能力最好，在此次測試中，Gemini 2.5 flash 表現最為出色。它成功構建了規模最大、最接近完整的知識圖譜（25個實體，30條關系），并且在人物角色提取方面準確率最高（13/14，僅遺漏1位）。長文本幻覺率低，盡管逐步導入了相當規模的圖譜，但沒有出現節點重復導入的問題。
- 分析：能力一般，僅僅調用一個 PageRank 算法來找出最影響力的節點，不過作出了較為合理算法結果的解釋，且結果符合基本常識。輸出格式豐富度一般。
- 效率：最好，工具調用次數最多（50次），且執行時間僅為 15分鐘，顯示出較高的效率和徹底性。
- 綜合評定：★★★★

最后補充一下部分關鍵測試效果。

任務規劃

總體來看，三個模型在 Agent 任務規劃能力上差異并不明顯，基本上都能做到細致精確的子任務拆分。

輸出格式

從執行結果的輸出格式來看，Qwen3 的輸出格式相對豐富，可讀性更加友好。

評測結論

整體來看，Gemini 2.5 flash 綜合表現最佳，在執行效率和圖抽取能力上優勢明顯；Qwen3 憑借對圖領域工具的熟練運用展現了突出的深度分析能力，但在數據抽取和執行效率上表現一般；相比之下，o3-mini 整體表現最差。

因此，雖然 Qwen3 在各項開源測試榜單上表現出色，但經過對實際圖任務的測試，與當下的領先的閉源模型能力仍有一定的差距。所以，通過特定的圖領域知識和工具，基于通用大模型構建圖原生智能體系統仍舊十分必要，這也是 Chat2Graph 一直以來要解決的問題。

技術展望

Qwen3的混合推理模型，無縫支持了thinking&no-thinking模式，為上層應用提供了靈活控制思考成本的能力。在Chat2Graph中可以嘗試通過打開“thinking”模式來增強 Leader 的規劃能力 / Thinker 的推理效果。同時也可以通過關閉“thinking”模式，降低 Expert/Actor 執行開銷和時延。

此外 Qwen3 對 MCP 的支持，讓我們看到大模型正在逐步過渡到以 Agent 為中心的訓練，這更督促 Agent 的開發者需要深度反思大模型能力界限之外的 Agent 的工程設計策略，進一步挖掘在工程層面協助大模型改進智能應用端到端體驗的創新與方案。

posted @ 2025-04-29 23:10 Florian 閱讀(1119) 評論(0) 收藏舉報

刷新頁面返回頂部