initial_h

???https://github.com/initial-h

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

發表時間：2024(ICLR2024)
文章要點： 文章提出用預訓練的視覺語言模型作為zero-shot的reward model（VLM-RMs）。好處在于可以通過自然語言來給定一個具體的任務，通過VLM-RMs讓強化學習基于reward學習這個任務（using pretrained vision-language models (VLMs) as zero shot reward models (RMs) to specify tasks via natural language）。這樣的好處是不用人工設計reward，而且任務自定義擴大了強化的適用范圍。
具體的，作者用CLIP作為基礎模型，其中包括CLIP image encoder和CLIP language encoder。將圖片和任務描述編碼成embedding后計算余弦相似度得到reward。

方法基本上就這么簡單。
此外作者還設計了一個Goal-Baseline Regularization，不過在mujoco上沒效果。這個regularization的出發點是想講無關信息去掉，指保留和任務相關的信息來計算reward（projecting out irrelevant information about the observation）。具體的，除了任務描述外，還定義了一個baseline描述，比如任務描述是a humanoid robot kneeling，baseline描述是a humanoid robot。然后reward定義為

這個proj的目的是projecting our state embedding onto the line spanned by the baseline and task embeddings。不過作者也說了這個映射并不一定就正確，后面mujoco的實驗也表明不用其實效果更好。
還有個細節就是圖像的紋理，作者發現圖片更真實的話，reward更準確（zero-shot VLM-based rewards work better in environments that are more “photorealistic” because they are closer to the training distribution of the underlying VLM）。
總結：很有意思的工作，任務可以自己定義了，而且是圖像輸入。效果看起來還不算驚艷，不過方向應用面很廣。作者在附錄里也說了，這種方式主要還是focus on goal-based tasks，因為reward的計算是基于狀態和任務的相似度的，這種設計比較順理成章（because they are most straightforward to specify using image-text encoder VLMs.）。
不過文章確實方法上novelty有限，實驗也做的很少，有兩個reject也合理。不過架不住有人抬一手啊，換做我們肯定涼透了。
疑問：文章說alpha取0的時候就是不帶regularization的reward，沒看出來這兩式子一樣呢？

posted @ 2024-06-11 11:15 initial_h 閱讀(261) 評論(0) 收藏舉報

刷新頁面返回頂部

initial_h

???https://github.com/initial-h

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

公告