Gaia2 與 ARE：賦能社區的智能體評測

在理想情況下，AI 智能體應當是可靠的助手。當接收到任務時，它們能夠輕松處理指令中的歧義，構建逐步執行的計劃，正確識別所需資源，按計劃執行而不被干擾，并在突發事件中靈活適應，同時保持準確性，避免幻覺。

然而，開發智能體并測試這些行為并非易事：如果你曾嘗試過調試自己的智能體，可能會體會到其中的繁瑣和挫敗感。現有的評測環境通常與特定任務緊密耦合，缺乏真實世界的靈活性，也無法反映開放世界中混亂的現實：模擬頁面不會加載失敗，事件不會自發發生，也不存在異步混亂。

因此，我們很高興地介紹 Gaia2 ——智能體基準 GAIA 的后續版本，它能夠分析更復雜的行為。Gaia2 與開放的 Meta Agents Research Environments (ARE) 框架一同發布，用于運行、調試和評測智能體。ARE 可以模擬復雜、接近真實世界的條件，并支持定制化，以便進一步研究智能體行為。Gaia2 數據集以 CC BY 4.0 許可證發布，ARE 框架則以 MIT 許可證開源。

圖 1：Gaia2 的預算擴展曲線（Budget Scaling Curves）。隨著預算增加，智能體在任務上的表現逐漸提升，用于展示在復雜環境中智能體能力隨資源投入的變化趨勢。

Gaia2：真實場景助理任務上的智能體評測

GAIA 是 2023 年發布的一個智能體基準測試，包含三類信息檢索問題，需要工具調用、網頁瀏覽和推理能力才能完成。兩年過去，如今最簡單的題目對模型來說已經過于容易，而社區也逐漸接近攻克最難的部分問題，因此，是時候推出一個全新且更具挑戰性的智能體基準了！

這就是 Gaia2 —— GAIA 的全新升級版本，在能力覆蓋與研究深度上都有大幅拓展！

相比于只讀的 GAIA，Gaia2 升級為可讀寫的評測基準，更加關注交互行為與復雜性管理。
在 Gaia2 中，智能體不僅要完成搜索與檢索任務，還需要在充滿不確定性和時間敏感性的指令下執行操作，并在包含可控故障的嘈雜環境中運行——這一設定比以往任何模擬環境都更接近真實世界。

我們希望測試智能體在以下場景下的表現：

當工具或 API 偶爾失效時如何應對；
如何在嚴格的時間窗口中規劃一系列動作；
如何快速適應突發事件。

這意味著智能體將面臨全新的復雜性挑戰！

為此，我們設計了以下任務組（基于全新創作的 1000 個人工場景）：

執行能力（Execution）：多步驟指令執行與工具使用（如更新聯系人信息）
搜索能力（Search）：跨來源信息收集（如從 WhatsApp 獲取朋友所在城市）
歧義處理（Ambiguity Handling）：澄清沖突請求（如解決日程沖突）
適應性（Adaptability）：應對模擬環境中的變化（如根據后續信息修改郵件）
時間/時序推理（Time/Temporal Reasoning）：處理時間敏感任務（如延遲 3 分鐘后再叫車）
智能體間協作（Agent-to-Agent Collaboration）：在無直接 API 訪問的情況下進行智能體間通信
噪聲容忍度（Noise Tolerance）：在 API 故障和環境不穩定條件下保持穩健

延續 GAIA 的設計理念，這些場景不依賴專業知識 理論上人類可以輕松達到 100% 完成度，從而方便模型開發者進行調試和改進。

想要深入體驗這個基準嗎？歡迎查看我們的數據集，
你也可以通過我們的在線演示更直觀地探索與展示。

Gaia2 如何運行？

Gaia2 運行在 ARE（Agent Research Environments）執行環境中，在這里，用戶可以選擇任意智能體，并賦予其對一系列應用程序及預置數據的訪問能力。

針對 Gaia2，我們打造了一個 智能手機模擬環境，再現人類日常生活中的使用場景。環境中包含真實世界常見的應用，如消息類（電子郵件）、工具類（日歷、聯系人、購物、文件系統等），以及一個與智能體對話的聊天界面。所有應用也都可以通過工具調用的方式被智能體訪問。更有趣的是，演示環境還附帶了一個虛擬用戶的歷史對話與應用交互記錄。

在運行過程中，所有智能體的交互都會被自動記錄為 結構化軌跡（structured traces），以便深入分析。這些軌跡包括：工具調用、API 響應、模型思考過程、時間指標（如響應延遲）、用戶交互等，并可導出為 JSON 文件。

結果展示

作為參考，我們對比了多款開源與閉源的大模型，包括：Llama 3.3-70B Instruct、Llama-4-Maverick、GPT-4o、Qwen3-235B-MoE、Grok-4、Kimi K2、Gemini 2.5 Pro、Claude 4 Sonnet，以及 GPT-5 在不同推理模式下的表現。

所有模型均在相同配置下進行評測：采用統一的 ReAct 循環確保一致性，溫度設定為 0.5，最大生成上限為 16K tokens。根據具體任務類型，評測方式結合了“模型判別（以 Llama 3.3 Instruct 70B 作為評審）”和“嚴格匹配（exact-match）”兩種方法。同時，系統提示中預置了全部 101 個工具及通用環境描述。

在評測的模型中，截至 2025 年 9 月，整體得分最高的模型是具備強大推理能力的 GPT-5，而表現最好的開源模型則是 Kimi K2。

從能力維度來看，一些任務已經被頂級模型基本解決：例如簡單工具調用與指令執行（execution），以及整體的檢索能力（search）（這一點從 GAIA 的結果中已經有所預期）。然而，歧義處理（ambiguity）、適應性（adaptability）和抗噪性（noise）依舊是所有模型的普遍挑戰。值得注意的是，那些過去被認為復雜的智能體任務（如指令執行與信息檢索），并不能很好預測模型在更貼近真實世界任務上的表現。最后，目前所有模型在 time 維度上的表現最為薄弱：在處理時間敏感型操作上仍然非常困難（不過，未來通過專用工具與更好的時間推理機制可能有所改善）。詳細分析可見論文正文。

同時，我們認為必須超越單純的分數匯報：如果一個模型雖然答對了，但需要消耗數千個 token 或運行數小時才能得出結果，那么它的表現顯然“不如”另一款在更短時間、更低成本下完成任務的模型。
因此，我們對得分進行了成本歸一化：通過平均 LLM 調用次數與輸出 token 數量來量化，并繪制出性能—成本的帕累托前沿（Pareto frontier）。在論文中，你將看到模型得分與實際金錢成本及耗時的對比結果。

與您喜愛的模型對比！在 Gaia2 上進行評測

如果你想在 Gaia2 上評測自己的模型，可以按照以下步驟操作：

首先，在你選擇的 Python 環境（uv、conda、virtualenv 等）中安裝 Meta 的 Agent Research Environment：

pip install meta-agents-research-environments

然后，運行基準測試，覆蓋所有配置：執行（execution）、檢索（search）、適應性（adaptability）、時間（time）以及歧義（ambiguity）。
別忘了使用 hf_upload 參數將結果上傳到 Hugging Face Hub！

運行基準測試的示例命令如下：

are-benchmark run --hf meta-agents-research-environments/Gaia2     --split validation --config CONFIGURATION     --model YOUR_MODEL --model_provider YOUR_PROVIDER     --agent default     --max_concurrent_scenarios 2     --scenario_timeout 300     --output_dir ./monitored_test_results     --hf_upload YOUR_HUB_DATASET_TO_SAVE_RESULTS

運行 oracle 來生成匯總得分文件。

are-benchmark judge --hf meta-agents-research-environments/Gaia2     --split validation --config CONFIGURATION     --agent default     --max_concurrent_scenarios 2     --scenario_timeout 300     --output_dir ./monitored_test_results --hf_upload YOUR_HUB_DATASET_TO_SAVE_RESULTS

最后，請在 README 中補充與你的模型相關的所有信息，并將結果分享到排行榜，以便在這里集中展示 Gaia2 的運行軌跡！

超越 Gaia2：用 ARE 深入研究你的智能體

除了基準場景外，你還可以在 ARE 中使用 Gaia2 的應用和內容，測試模型是否能夠正確完成一些更難驗證的任務，例如加載郵件、撰寫跟進回復、在日歷中添加事件或預約會議。總之，ARE 提供了一個通過交互來評估 AI 助手的理想環境！

你也可以輕松定制環境：

連接你的工具（通過 MCP 或直接接入），在其上測試智能體；
實現自定義場景，包括設置 觸發事件或定時事件（例如：2 分鐘后，郵件應用收到來自聯系人的新郵件），從而觀察智能體如何適應動態變化的環境。

（默認情況下，智能體運行在 json agent 模式下，不會對你的本地機器造成影響；除非你將它們連接到具備不安全權限的外部應用。因此，在添加自定義應用或使用不可信的 MCP 時，請務必保持謹慎。）

以下是我們使用 ARE 的一些典型場景：

快速評估任意智能體：基于真實或模擬數據，測試不同規則、工具、內容和驗證方式下的表現
測試智能體的 工具調用與編排能力：可結合本地應用或 MCP 工具
生成自定義的工具調用軌跡，用于 微調具備工具調用能力的模型
在統一框架下，輕松收集并 復現現有的智能體基準測試
在用戶界面中，實時調試并 研究智能體之間的交互
在嘈雜環境中（如 API 超時、任務歧義），研究模型的局限性

我們錄制了 3 段視頻，展示了其中的一些使用場景（當然，我們也希望社區能在 ARE 上發揮更多創造力 :hugging_face:）。
這些視頻基于前文提到的默認演示環境，內容模擬了一位名為 Linda Renne 的機器學習博士生的日常生活。

1) 測試智能體在簡單任務中的表現：活動組織

為了測試默認模型在活動組織上的能力，我們來策劃一場生日派對！ ??

首先，我們讓智能體給 Renne 家族的成員群發短信，告知用戶的 30 歲生日派對將在 11 月 7 日舉行。默認的模擬環境中共有 21 個聯系人，其中 5 位屬于 Renne 家族 —— 包括模擬“主人”Linda、她的父母 George 和 Stephie、妹妹 Anna，以及祖父 Morgan。智能體成功遍歷了聯系人列表，找到了這四位家族成員，并向他們發出了通知。

接下來，我們要求智能體創建一個日歷邀請，并將他們添加為受邀者。智能體成功記住了之前的上下文：它在正確的日期創建了日歷事件，并把家族成員正確添加進來。

2) 理解智能體：深入分析軌跡

ARE 還支持我們查看智能體在執行任務時的完整軌跡。
打開左側的 Agent logs 工具后，可以看到系統提示、思維鏈（chain of thought）、通過工具執行的多步操作，以及最終結果——所有內容都被清晰地組織成日志形式。
如果需要離線分析，還可以將所有信息導出為 JSON 文件。

3) 玩轉并擴展演示：將智能體連接到你自己的 MCP

在最后一個示例中，我們通過 MCP 將 ARE 連接到一只遠程機械臂，讓它可以做出手勢。隨后，我們要求智能體通過揮動機械臂來回答我們的是/否問題！以下是演示效果：

但以上這些示例只是非常簡單的起點，我們真正期待的是——看看你們能用它們創造出什么！
（對于更高階的用戶，你甚至可以直接安裝并編輯 Meta-ARE 的代碼，點此查看。）

總結

Gaia2 與 ARE 是全新的研究工具，我們希望它們能夠幫助更多人輕松構建更可靠、更具適應性的 AI 智能體。通過簡化實驗過程，讓真實世界的評測對所有人都更易獲得，并通過透明、可復現的基準與可調試的軌跡來增強信任。

我們非常期待看到大家能用這個項目做出什么！

posted @ 2025-10-04 17:15 HuggingFace 閱讀(102) 評論(0) 收藏舉報

刷新頁面返回頂部

Hugging Face 博客

The AI community building the future.