HF Papers 直播| AI for Science 專場
AIGC熱點大賽# 由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 機智流等 聯合發起的【AI Insight Talk】系列直播活動第三場即將開始!
AI 科學家時代正加速到來,但科研智能體真的做好準備了嗎?真實科研場景中,多模態智能體能否在推理、規劃與執行等關鍵能力上達到人類科研人員的水平?我們又該如何準確評估它們的科學認知能力和數據分析表現?
本期我們將聚焦 AI for Science,邀請多位在 Hugging Face Daily Papers 中熱門論文的作者,共同探討 AI for Science 能力的真實象限。
?? 直播時間:2025 年 7 月 17 日( 周四 )19:30 - 21:30(北京時間)
?? 直播預約地址:https://hf.link/pzahk
嘉賓陣容 & 分享議題
孫秋實
香港大學博士生,碩士畢業于新加坡國立大學數據科學系。研究方向涵蓋 Computer-using Agents 與Code Intelligence,在 ACL、EMNLP、ICLR、COLM 等自然語言處理與機器學習頂級會議發表多篇論文,谷歌學術引用超過 1000 次,擔任多個國際會議與期刊的審稿人及程序委員會委員。其關于計算機智能體的系列研究成果被廣泛應用于學術研究與工業界實踐中。個人主頁:https://qiushisun.github.io/
簡要概述
ScienceBoard 是一個用于評估多模態智能體在科學探索任務表現的框架,包含兩個核心貢獻:真實的可交互環境以及在此基礎上構建的評測基準。該環境基于虛擬機,集成了多領域的專業科學軟件,支持通過 GUI 和 CLI 進行復雜科研流程的自動化操作。評測基準在此環境中設計了 169 個覆蓋生物化學、代數、天文學等六大領域的高質量任務,系統性地測試了智能體在真實科研場景下的推理、規劃和執行能力。實驗結果表明,即使是最先進模型驅動的智能體,其平均成功率依然遠低于人類水平,進一步揭示了當前智能體在科學自動化中的局限,并為未來的科學智能體設計提供了關鍵啟示。
論文地址:https://huggingface.co/papers/2505.19897
周宇浩
現為四川大學三年級博士生,本科畢業于四川大學計算科學專業,同時在上海人工智能實驗室 AI4S 部門進行學術研究,目前主要研究方向為多模態大語言模型的訓練和評測。
簡要概述
Scientists’ First Exam(SFE)旨在系統評估多模態大模型(MLLMs)在多學科科學領域的能力。SFE 創新性地以“信號感知-屬性理解-對比推理”三級體系,涵蓋五大領域、66 項任務,采用原始科學數據與中英雙語問答。測試發現,主流模型在 SFE 高階科學任務中表現有限(SOTA 得分僅約 30),凸顯了其在科學認知和多模態數據分析方面的不足,為科學 AI 發展指明了突破方向。
論文地址:https://huggingface.co/papers/2506.10521
歐翌昕
浙江大學知識引擎實驗室三年級碩士生,由陳華鈞教授和張寧豫教授指導,此前在浙江大學計算機科學與技術學院獲得學士學位。當前研究方向涵蓋大模型智能體、大模型可解釋性等,在 ACL、NAACL、TASLP 等國際頂級會議和期刊上發表多篇相關研究成果,谷歌學術引用超過 800 次,擔任多個國際會議的審稿人。個人主頁:https://oe-heart.github.io/
簡要概述
大模型驅動的數據科學智能體有望自動化整個機器學習流程,但其在實際應用中的效果仍然有限?,F有的框架依賴于僵化的預定義工作流和不靈活的編碼策略,因此僅在相對簡單的經典問題上表現出色,未能充分捕捉人類專家在復雜創新任務中的經驗。本研究提出了 AutoMind,一個自適應、知識豐富的大模型智能體框架,通過三項關鍵創新克服了這些不足:(1)一個精心策劃的專家知識庫,將智能體與領域專家的知識相結合;(2)一種智能體知識樹搜索算法,策略性地探索可能的解決方案;(3)一種自適應編碼策略,動態調整代碼生成策略以適應不同任務的復雜性。評估結果表明,AutoMind 在性能上超越了先前 SOTA,更細致的分析確認了其在質量和效率方面的優勢,突顯了 AutoMind 在邁向完全自動化數據科學中的高效性和穩健性。
論文地址:https://huggingface.co/papers/2506.10974
參與討論
為了方便大家交流溝通,我們建立了相關的交流群,本期分享的作者們也在群里,歡迎大家入群交流。

?? 7 月 17 日下午 7:30,AI Insight Talk 不見不散!

浙公網安備 33010602011771號