HF Papers 直播| 多模態專場
由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 機智流 等聯合發起的【AI Insight Talk】系列直播活動第四場 - 多模態專場就在明天!
各家多模態大模型在近期紛紛開源,在開源社區引發了熱烈討論。這些模型不僅在參數規模、訓練范式和應用場景上各具特色,更在開源社區的催化下形成了"百家爭鳴"的生態格局。開發者們得以在代碼級層面解構其架構設計,從 Transformer 變體到跨模態對齊機制,從指令微調策略到領域知識注入方法,為創新與實踐提供了新的啟發與可能。
本次我們邀請到了多位多模態模型背后的核心研發者,共同帶來一場深度技術分享,系統解析模型設計思路與實踐經驗;同時還將舉辦圓桌對談,匯聚多位頂尖開發者同臺交流,碰撞思想火花!
?? 直播時間:2025 年 8 月 21 日( 周四 )20:00 - 22:00(北京時間)

直播觀看地址:https://hf.link/o6cwf
嘉賓陣容 & 分享議題
Intern-S1:科學多模態大模型
陳愷:上海人工智能實驗室 大模型中心負責人
簡要概述 在科學發現過程中,傳統的單一模態分析往往難以全面捕捉復雜現象,尤其是在跨學科領域的深度探索中更加顯著。Intern-S1 融合了書生大模型家族的優勢,在同一模型內實現了語言和多模態性能的高水平均衡發展,并富集多學科專業知識,重點強化了科學能力,為首個融合專業科學能力的開源通用模型,其綜合性能為當前開源多模態大模型中最優,并連續多日登頂 Hugging Face 多模態 Trending 全球第一。本次分享將系統解讀 Intern-S1 的核心技術架構與關鍵創新。
Hugging Face:https://huggingface.co/InternLM
MiniCPM-V:邁向高效端側多模態大模型
姚遠:面壁智能 MiniCPM-V、MiniCPM-o 技術負責人
簡要概述 MiniCPM-V 和 MiniCPM-o 系列致力于實現“輕量級、高性能”的高效端側多模態大模型。通過模型結構、訓練方法、數據構造等方面的創新技術,最新的 MiniCPM-V 4.0 以 4B 參數量,實現了持平 GPT-4.1-mini 的視覺語言理解性能,并支持在手機設備上的低延遲流暢運行;MiniCPM-o 在視頻、語音、文本的全模態實時流式交互方面,實現了持平 GPT-4o-202405 的能力水平。本次分享將介紹 MiniCPM-V 和 MiniCPM-o 的相關技術探索,以及開源部署工具。
Hugging Face:https://huggingface.co/openbmb
GLM-V:邁向通用推理的多模態大模型
余文夢:智譜 GLM-V 團隊研究員
簡要概述 面向通用多模態理解與推理,GLM-4.1V-9B-Thinking 與 GLM-4.5V 展開了重要探索,提出基于課程采樣的強化學習方法(RLCS),在 STEM 推理、GUI Agents、Grounding、視頻理解、代碼生成、空間推理以及長文檔解析等多樣化任務上實現了顯著提升。在 42 項公開基準的綜合評測中,GLM-4.5V 在幾乎所有同規模開源模型中取得領先,并在代碼生成和 GUI Agents 等挑戰性任務上表現出與 Gemini-2.5-Flash-202506 等閉源模型相當甚至更優的能力。與此同時,參數規模更小的 GLM-4.1V-9B-Thinking 也展現出極強競爭力。本次分享,將介紹這一系列模型背后的技術創新、實驗成果,以及相應的開源與部署工具。
Hugging Face:https://huggingface.co/zai-org
Ovis多模態大模型:結構對齊下的視覺語言融合
盧世銀 阿里巴巴國際數字商業集團高級算法專家
簡要概述 目前,主流開源 MLLM 通常以預訓練 LLM 和 ViT 為基礎,分別通過索引嵌入表生成文本嵌入、通過 MLP 生成視覺嵌入,導致文本嵌入與視覺嵌入在結構上存在差異,影響多模態信息的深度融合。 針對這一挑戰,阿里國際提出了新型 MLLM 架構 Ovis。Ovis 借鑒 LLM 的文本嵌入策略,引入可學習的視覺嵌入表,將視覺特征轉化為概率化的視覺 token,并通過多次索引加權生成視覺嵌入,從而實現視覺與文本嵌入的結構化對齊與高效融合。本次分享將介紹 Ovis 的架構設計、訓練策略、性能表現及開源最新動態。
Hugging Face:https://huggingface.co/AIDC-AI
階躍星辰在多模態方向上的探索
孫泉:階躍星辰研究員
簡要概述 Step3 是一款前沿的開源多模態推理模型,基于 Mixture-of-Experts 架構,擁有 3210 億參數(其中 380 億為激活參數),在不同硬件平臺上均能保持卓越的文本推理與多模態推理能力,能夠實現精準的視覺理解,并顯著降低幻覺率。NextStep-1 致力于探索新的自回歸圖像生成范式,通過采用輕量的 flow matching head 和更魯棒的圖像 tokenizer 實現在連續視覺空間中的自回歸生成,在文生圖和圖像編輯任務上均表現出優異的性能。本次分享將介紹 Step3 和 NextStep-1 相關的技術探索。
Hugging Face:https://huggingface.co/stepfun-ai
觀看直播
直播觀看地址:https://hf.link/o6cwf

參與討論
為了方便大家交流溝通,我們建立了相關的交流群,本期分享的作者們也在群里,歡迎大家入群交流。

??8月21日 ( 周四 )晚 20:00,AI Insight Talk 不見不散!

浙公網安備 33010602011771號