<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      【每日Arxiv熱文】北大新框架 Edit-R1 炸場!破解圖像編輯 3 大難題,雙榜刷 SOTA

      【01 論文概述】

      論文標題:

      Uniworld-V2:ReinforceImageEditingwithDiffusionNegative-awareFinetuningandMLLMImplicitFeedback

      作者團隊:北京大學
      發布時間:2025 年 10 月 21 日
      論文鏈接:https://arxiv.org/pdf/2510.16888

      Lab4AI 大模型實驗室鏈接:

      https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq/_edit&id=2b0294f7c8b14a099ced8cce7466f48d

      1.研究背景

      當前基于指令的圖像編輯雖借助擴散模型取得進展,但仍面臨三大核心挑戰:

      l 監督微調(SFT)的固有缺陷:現有模型多依賴 SFT 訓練,易過擬合標注模式,導致泛化能力差(無法突破訓練分布)、可控性不足(忽略復雜指令,僅重構輸入),且依賴大規模但多樣性低的數據集,進一步削弱跨任務的指令保真度。

      l 強化學習(RL)在擴散模型中的應用瓶頸:RL 雖為模型對齊人類意圖的潛在方向,但現有策略優化方法(如基于似然估計)存在系統偏差,且一階 SDE 采樣器需在“軌跡多樣性”與“生成質量”間權衡,難以滿足圖像編輯對高保真和多樣化探索的雙重需求。

      l 通用獎勵模型的缺失:圖像編輯指令和任務具有多樣性,導致缺乏統一獎勵模型。MLLM 雖適合主觀評估,但現有 MLLM 評分方法存在缺陷:基于 Chain-of-Thought(CoT)的方法易引入暴露偏差且計算成本高,基于采樣的方法信號稀疏,而領域微調需復雜數據集以避免偏差和災難性遺忘,成本高昂。
      image.png

      2.研究目的

      針對上述挑戰,本研究旨在:

      l 突破SFT 范式的泛化性與可控性限制,解決擴散模型結合 RL 時的策略優化偏差問題;

      l 構建通用、低成本、低幻覺的獎勵模型,避免依賴復雜數據集或引入額外偏差;

      l 提出一套高效的訓練后優化框架(Edit-R1),提升不同基礎擴散模型(如 UniWorld-V2、Qwen-Image-Edit、FLUX.1-Kontext)在指令圖像編輯任務中的性能與泛化能力,同時保證模型無關性(model-agnostic)。通過策略優化方法直接對齊生成過程與人類意圖,避免對領域特定獎勵模型的依賴。

      3.核心貢獻

      l 提出Edit-R1 訓練后優化框架:整合兩種關鍵技術——DiffusionNegative-awareFinetuning(DiffusionNFT,一種與流匹配前向過程一致的無似然策略優化方法,支持黑箱采樣器、decouple 訓練與采樣)和基于預訓練 MLLM 的無訓練獎勵模型,實現擴散模型的高效微調。

      l 驗證獎勵信號的人類對齊性:所設計的MLLM 獎勵信號(非 CoT+logit-based 評分)無需訓練或復雜推理,能提供與人類偏好高度對齊的反饋,兼具可靠性、低成本與低幻覺特性,有效穩定訓練過程。

      實證性能提升與泛化能力:實驗表明,Edit-R1 可顯著提升多種基礎模型性能:在 ImgEdit 和 GEdit-Bench 基準上,UniWorld-V2 取得 SOTA 結果(分別為 4.49、7.83),FLUX.1-Kontext[Dev]微調后超越其 Pro 版本,Qwen-Image-Edit[2509]成為開源模型中的 SOTA;同時框架具有模型無關性,可適配不同基礎模型。

      4. 研究方法

      本研究的核心方法圍繞Edit-R1 框架展開,包含三大核心組件與完整流程:

      l 策略優化:采用DiffusionNFT,一種基于流匹配前向過程的無似然策略優化方法,支持高階采樣器并避免偏差。

      l 獎勵設計:

      使用MLLM 的非 CoTlogit 評分機制,直接計算得分令牌的期望值作為獎勵。

      通過任務定制化提示詞(基礎指令+ 任務指令)實現細粒度評估。

      l 訓練流程:

      ??采樣:利用 DPM-Solver 快速生成候選圖像組。

      ??評分:MLLM 對編輯結果進行隱式反饋打分。

      ??優化:通過 DiffusionNFT 損失函數更新模型,結合組過濾機制剔除低方差高均值樣本。
      image.png

      5.研究結果

      5.1 基準測試性能

      l ImgEdit 基準:UniWorld-V2 達到 SOTA(4.49 分),Qwen-Image-Edit 提升至 4.48 分,超越閉源模型(如 GPT-Image-1)。

      l GEdit-Bench 基準:UniWorld-V2 取得 7.83 分,顯著優于基線模型。

      l 泛化能力:在域外數據上(如GEdit-Bench),所有基礎模型均獲得穩定提升。

      5.2 人類偏好評估

      用戶研究表明,優化后的模型在指令遵循和圖像質量上更受青睞。微調后的UniWorld-FLUX.1-Kontext 在“指令對齊”維度顯著優于 FLUX.1-Kontext[Dev]與 Pro 版本,整體偏好度更高(圖 6)。

      5.3 消融實驗結果

      策略優化方法對比:在FLUX.1-Kontext[Dev]上,DiffusionNFT 在 ImgEdit 基準的性能顯著優于 Flow-GRPO 及 Flow-GRPO+LocalStd(圖 7)。

      核心組件貢獻:Qwen-Image-Edit[2509]上,僅 DiffusionNFT(7BMLLM)提升至 7.66,32BMLLM 進一步提升至 7.74,加入組過濾后達 7.76(表 3)。
      image.png

      6.總結與展望

      本研究針對指令圖像編輯的泛化性、可控性及獎勵模型難題,提出Edit-R1 框架:通過 DiffusionNFT 實現無似然策略優化,結合無訓練的 MLLM 獎勵模型(非 CoT+logit-based),解決了 SFT 的過擬合與 RL 策略優化的偏差問題。該框架在 ImgEdit、GEdit-Bench 基準上取得 SOTA,可適配多種基礎模型,且獎勵信號與人類偏好高度對齊,為指令圖像編輯提供了高效、通用的訓練后優化方案。

      【02 論文原文閱讀】

      您可以跳轉到Lab4AI 平臺上去閱讀論文原文。

      Lab4AI大模型實驗室已經提供???論文?,閱讀鏈接:

      https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq/_editr1&id=2b0294f7c8b14a099ced8cce7466f48d

      ?文末點擊閱讀原文?,即可跳轉至對應論文頁面。目前,論文的復現工作還在招募中,歡迎各位感興趣的朋友報名參與復現創作,我們提供一定額度的H800 算力作為獎勵。
      image.png
      ·Lab4AI.cn覆蓋全周期科研支撐平臺,提供論文速遞、AI翻譯和AI導讀工具輔助論文閱讀;

      ·支持投稿論文復現和Github項目復現,動手復現感興趣的論文;

      ·論文復現完成后,您可基于您的思路和想法,開啟論文創新與成果轉化。
      image.png
      本文由AI 深度解讀,轉載請聯系授權。關注“大模型實驗室 Lab4AI”,第一時間獲取前沿 AI 技術解析!

      posted @ 2025-10-29 11:37  Lab4AI大模型實驗室  閱讀(139)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产在热线精品视频99公交| 婷婷色综合成人成人网小说 | 欧美大胆老熟妇乱子伦视频 | 无棣县| 一本久道中文无码字幕av| 国产精品一区二区三区日韩| 亚洲国产成人无码av在线影院| 亚洲国产精品综合久久20| 中国女人熟毛茸茸A毛片| 久热伊人精品国产中文| 一本色道久久88亚洲精品综合 | 最近中文字幕国产精品| 国产精品无码制服丝袜| 亚洲综合黄色的在线观看| 国产亚洲精品VA片在线播放| 青草青草久热国产精品| 国产自产对白一区| 18禁在线一区二区三区| 国产360激情盗摄全集| 中文无码热在线视频| 熟女视频一区二区三区嫩草| 广东少妇大战黑人34厘米视频| 日韩亚洲精品中文字幕| 九九热在线观看视频免费| 无码伊人久久大杳蕉中文无码| 欧美丰满熟妇xxxx性ppx人交| 五月综合网亚洲乱妇久久| 亚洲一区二区av高清| 成人一区二区三区在线午夜| 国产无遮挡猛进猛出免费软件| 久热99热这里只有精品| 鲁丝片一区二区三区免费| 欧美成人精品在线| 日韩精品不卡一区二区三区| 国产免费一区二区三区在线观看 | 色综合视频一区二区三区| 日日碰狠狠添天天爽超碰97| 污网站在线观看视频| 亚洲国产成人不卡高清麻豆| 开心婷婷五月激情综合社区| 国产a在视频线精品视频下载 |