<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Qwen3接入評測,最強開源模型更懂Graph了嗎?

      今日凌晨,阿里開源Qwen3,推理成本大幅下降,性能全面超越 DeepSeek-R1、OpenAI-o1 等,問鼎全球最強開源模型。在代碼、數學、通用能力各項性能指標中,Qwen3都名列前茅。與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,表現出極具競爭力的結果。

      而就在 4 天前,我們剛發布了業內首個圖原生智能體系統系統 Chat2Graph,旨在通過智能體技術高效解決用圖問題,同時深度融合「Graph+AI」技術增強智能體的推理效果。開源項目鏈接:https://github.com/TuGraph-family/chat2graph

      Chat2Graph視頻介紹:https://www.bilibili.com/video/BV15CjPztEgg

      Chat2Graph 屆時已將 Qwen3 接入作為基礎模型服務,并在第一時間對其在圖領域的任務上的表現進行了評測。

      對比模型

      綜合性能、推理能力、價格三個因素,我們從挑選如下三個模型做對比分析:

      1. Qwen3:最強開源大模型,支持 thinking/no-thinking 兩種模式。
      2. OpenAI o3-mini:o 系列閉源模型,mini 版本推理速度快、tokens 價格適中。
      3. Gemini 2.5 flash:最新的 Gemini 系列閉源模型,flash 版本推理速度極快,tokens 價格非常便宜。

      圖領域任務

      我們使用了同一個問題在Chat2Graph上進行測試:

      根據「羅密歐與朱麗葉」的故事構建圖譜。然后,你還要查詢圖數據庫,告訴我故事中出現了多少人物角色。然后進行深度分析,計算出最有影響力的節點。

      實驗結果

      整體實驗結果如下表所示。

      Qwen3 OpenAI o3-mini Gemini 2.5 flash
      圖譜規模 10 實體 11 關系 4 實體 3 關系 25 實體 30 關系
      抽取人物數(共14位) 8 位 2 位 13 位
      調用圖算法 PageRank、BC PageRank PageRank
      工具調用次數 32 次 30 次(失敗 1 次) 50 次
      總執行時間 30 分鐘 13 分鐘 15 分鐘
      輸出格式豐富度

      具體分析來看:

      1. Qwen3:
        • 抽取:能力一般,主要弱點在于數據提取階段,只識別了8/14的人物,構建的圖譜規模相對較小,影響了后續任務的基礎。
        • 分析:能力突出,Qwen3 在圖分析階段表現最好,不僅調用了PageRank 算法,還調用了 BC 算法,并結合兩者進行了深度分析,展現了較強的分析解釋能力。輸出格式也最豐富。
        • 效率:一般,Qwen3 在三個模型中執行時間最長(30分鐘)。但是在平均執行效率(執行時間/圖譜規模)上和 OpenAI o3-mini 基本持平。
        • 綜合評定:★★★
      2. OpenAI o3-mini:
        • 抽取:能力較差,僅提取了極少量的實體和關系(4實體,3關系),人物提取準確率最低(2/14)。構建的知識圖譜過于稀疏,無法有效支持后續任務。
        • 分析:能力一般,在 Schema 設計、復雜工具(多參數的 PageRank 算法)調用、圖查詢語句生成方面表現尚可,但整體效果因數據基礎薄弱而大打折扣。輸出格式豐富度一般。
        • 效率:一般,o3-mini 雖然總時間最短,但其極低的圖譜質量產出,導致效率指標并不理想。但這可能是犧牲了信息提取完整性的結果(被評價為學習了“偷懶”技能)。
        • 綜合評定:★★
      3. Gemini 2.5 flash:
        • 抽取:能力最好,在此次測試中,Gemini 2.5 flash 表現最為出色。它成功構建了規模最大、最接近完整的知識圖譜(25個實體,30條關系),并且在人物角色提取方面準確率最高(13/14,僅遺漏1位)。長文本幻覺率低,盡管逐步導入了相當規模的圖譜,但沒有出現節點重復導入的問題。
        • 分析:能力一般,僅僅調用一個 PageRank 算法來找出最影響力的節點,不過作出了較為合理算法結果的解釋,且結果符合基本常識。輸出格式豐富度一般。
        • 效率:最好,工具調用次數最多(50次),且執行時間僅為 15分鐘,顯示出較高的效率和徹底性。
        • 綜合評定:★★★★

      最后補充一下部分關鍵測試效果。

      任務規劃

      總體來看,三個模型在 Agent 任務規劃能力上差異并不明顯,基本上都能做到細致精確的子任務拆分。

      輸出格式

      從執行結果的輸出格式來看,Qwen3 的輸出格式相對豐富,可讀性更加友好。

      評測結論

      整體來看,Gemini 2.5 flash 綜合表現最佳,在執行效率和圖抽取能力上優勢明顯;Qwen3 憑借對圖領域工具的熟練運用展現了突出的深度分析能力,但在數據抽取和執行效率上表現一般;相比之下,o3-mini 整體表現最差。

      因此,雖然 Qwen3 在各項開源測試榜單上表現出色,但經過對實際圖任務的測試,與當下的領先的閉源模型能力仍有一定的差距。所以,通過特定的圖領域知識和工具,基于通用大模型構建圖原生智能體系統仍舊十分必要,這也是 Chat2Graph 一直以來要解決的問題。

      技術展望

      Qwen3的混合推理模型,無縫支持了thinking&no-thinking模式,為上層應用提供了靈活控制思考成本的能力。在Chat2Graph中可以嘗試通過打開“thinking”模式來增強 Leader 的規劃能力 / Thinker 的推理效果。同時也可以通過關閉“thinking”模式,降低 Expert/Actor 執行開銷和時延。

      此外 Qwen3 對 MCP 的支持,讓我們看到大模型正在逐步過渡到以 Agent 為中心的訓練,這更督促 Agent 的開發者需要深度反思大模型能力界限之外的 Agent 的工程設計策略,進一步挖掘在工程層面協助大模型改進智能應用端到端體驗的創新與方案。

      posted @ 2025-04-29 23:10  Florian  閱讀(1119)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲国产精品一二三四五| 国产福利姬喷水福利在线观看| 亚洲性无码av在线| 国产亚洲欧洲av综合一区二区三区| 白丝乳交内射一二三区| 亚洲色欲在线播放一区二区三区| 性色av免费观看| 日本高清视频色wwwwww色| 亚洲狼人久久伊人久久伊| 青青草无码免费一二三区| 中文字幕无码专区一VA亚洲V专| 欧美色丁香| 年轻女教师hd中字3| 视频一区二区三区在线视频| 国产亚洲精久久久久久久91 | 一本久久a久久精品综合| 狠狠躁天天躁中文字幕无码| 亚洲老妇女亚洲老熟女久| 成在线人永久免费视频播放| 97超级碰碰碰久久久久| 国产精品日日摸夜夜添夜夜添2021 | 久久人妻精品大屁股一区| 你懂的亚洲一区二区三区| 亚洲中文字幕无码爆乳| 欧美精品一区二区在线观看播放| 久久这里只精品热免费99| 真人无码作爱免费视频| 国产a在亚洲线播放| 免费午夜无码片在线观看影院| 久热这里只有精品12| 滦南县| 久青草精品视频在线观看| 亚洲精品在线二区三区| 天天狠天天透天天伊人| 色欲av亚洲一区无码少妇| 伦伦影院精品一区| 久久99精品久久久久久青青| 人妻少妇偷人一区二区| 内射干少妇亚洲69XXX| 国产精品白浆免费视频| 色综合色综合久久综合频道88|