<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      解決GRPO優勢歸因錯誤,Chunk-GRPO讓文生圖模型更懂"節奏"

      文本到圖像(T2I)生成模型的發展速度超出很多人的預期。從SDXL到Midjourney,再到最近的FLUX.1,這些模型在短時間內就實現了從模糊抽象到逼真細膩的跨越。但問題也隨之而來——如何讓模型生成的不僅僅是"一張圖",而是"正確的那張圖"?這涉及到如何讓AI理解人類在審美、風格和構圖上的真實偏好。

      強化學習(RL)成為解決這個問題的關鍵技術。通過將人類偏好分數作為獎勵信號,可以對這些大模型進行微調。群體相對策略優化(GRPO)是近期比較熱門的方案。但清華大學和快手的研究團隊最近發現,這個方法存在一個隱藏的根本性缺陷。

      這個缺陷會讓模型學錯東西,即便最終生成的圖像看起來還不錯。論文"SAMPLE BY STEP, OPTIMIZE BY CHUNK: CHUNK-LEVEL GRPO FOR TEXT-TO-IMAGE GENERATION"提出了一個叫Chunk-GRPO的解決方案,思路直接并且效果出眾,算是訓練生成模型思路上的一次轉向。

      GRPO的問題:不準確的優勢歸因

      要理解Chunk-GRPO做了什么,得先搞清楚現有方法的問題出在哪。論文把這個問題叫做**"不準確的優勢歸因"**(inaccurate advantage attribution)。

      可以用一個類比來說明。假設你在教學徒做酸面團面包,整個流程有17個步驟。學徒做了兩個面包——面包A各方面都很棒,面包B勉強及格。作為師傅,你給A打了高分(+10),給B打了低分(+2)。

      標準GRPO的做法相當于告訴學徒:"面包A的每一個步驟都比B好。"它把最終的高分獎勵追溯性地分配給制作A的所有17個步驟。

      但實際情況可能是,做A的第3步時學徒差點打翻面團,而做B的第3步手法其實很標準。標準GRPO仍然會獎勵A的糟糕第3步,懲罰B的正常第3步,就因為最終結果不同。這就是"不準確的優勢歸因"——模型被強化的某個具體動作,單獨看其實是個錯誤。訓練幾千次之后,這種錯誤的反饋信號會讓模型困惑,導致訓練不穩定,效果也達不到最優。

      論文用圖像生成的真實案例展示了這個問題:

       

      https://avoid.overfit.cn/post/801e16bc6ddb464bbeb532f74cdceb91

      posted @ 2025-11-01 19:04  deephub  閱讀(5)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产精品午夜福利精品| 国产精品中文字幕第一页| 齐齐哈尔市| 日本少妇自慰免费完整版| 熟女一区| 欧美交A欧美精品喷水| 午夜精品极品粉嫩国产尤物| 欧美性69式xxxx护士| 干老熟女干老穴干老女人| 播放灌醉水嫩大学生国内精品| 日本久久一区二区三区高清| 一区二区三区精品视频免费播放 | 人妻少妇久久中文字幕| 精品午夜福利在线视在亚洲| 欧美不卡无线在线一二三区观| 欧美日韩精品一区二区视频| 国产色无码专区在线观看| 欧美丝袜高跟鞋一区二区| 欧美奶涨边摸边做爰视频| 日韩欧美一中文字暮专区| 口爆少妇在线视频免费观看 | 国产一二三五区不在卡| 黄页网站在线观看免费视频| 么公的好大好硬好深好爽视频| 五月综合网亚洲乱妇久久| 强奷乱码中文字幕| 久久午夜电影网| 亚洲自在精品网久久一区| 中文字幕在线不卡一区二区| 一区二区中文字幕久久| 日韩精品一区二区蜜臀av| 精品久久人人妻人人做精品| 中文字幕色偷偷人妻久久| 久久被窝亚洲精品爽爽爽| 欧美大bbbb流白水| 自拍偷自拍亚洲精品熟妇人| 成年女性特黄午夜视频免费看| 人妻少妇久久中文字幕| 亚洲精品专区永久免费区| 中文字幕人妻在线精品| 樱花草在线社区WWW韩国|