論文速讀記錄 | 2025.05
Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learning
- url:https://www.sciencedirect.com/science/article/pii/S0950705124014588
- open review:https://openreview.net/forum?id=kCcIYc98ho
- 來源:偶然得知的文章。
- 主要內(nèi)容:
- 這篇文章最初投稿在 ICLR 2024,6 6 5 reject,后來于 2025 年 1 月發(fā)表在 Knowledge-Based Systems 期刊,不太了解這個期刊。
- 主要 method:提出了 MCP(Mixing corrupted preferences)方法,用于應對 PbRL 里的 noisy preference label,其中 noisy label 從 B-Pref 的模型里生成。
- MCP 貌似是 mixup 方法在 PbRL 里的直接應用,具體是把兩個 query \((\sigma_0, \sigma_1, p), (\sigma_0', \sigma_1', p')\) 進行線性組合,得到兩個新的假 query:\([\lambda\sigma_0 + (1-\lambda)\sigma_0', ~ \lambda\sigma_1 +(1-\lambda)\sigma_1', ~ \lambda p + (1-\lambda)p']\) 和另一個對稱生成的 query,其中 \(\lambda\sim\text{Beta}(\beta,\beta)\),我也不懂 beta 分布,貌似 λ 會是 0 1 之間的值,且比較貼近 0 或 1。
- 這篇文章希望通過這樣的方式,讓 reward model 在每個 preference 數(shù)據(jù)點的鄰域周圍,都有一定泛化性。
XSkill: Cross Embodiment Skill Discovery
- arxiv:https://arxiv.org/abs/2307.09955
- website:https://xskill.cs.columbia.edu/
- open review:https://openreview.net/forum?id=8L6pHd9aS6w
- GitHub:https://github.com/real-stanford/xskill
- 來源:[mask]
- 主要內(nèi)容:
- 這是一篇 CoRL 2023 的論文,關(guān)注 robotics 方向。
- 這篇論文提出了 XSkill(cross embodiment skill discovery)方法,包含非常吸引人的框架:
- 可以通過對齊 human 和 robot 的動作,從 human 的軌跡中學到可重用的技能(skill),比如開門 開燈 拉抽屜;
- 然后,讓 robot 學會這些技能;
- 最后,對于一個新 task,我們只需要給一條 human 軌跡,就可以通過先識別其中的 skill,再讓 robot 進行規(guī)劃、執(zhí)行 skill,這樣 one-shot 學會新 task。
- 主要 setting:可用的數(shù)據(jù)集有 ① human expert demo 的軌跡數(shù)據(jù)集,② robot 遙操作軌跡數(shù)據(jù)集。這兩個數(shù)據(jù)集都是未分割和未對齊的。
XSkill 分為三個階段:discover、transfer 和 compose。
① discover:
- 首先,對于 human demo 和 robot demo 數(shù)據(jù)集里的視頻,我們使用一個長度為 L 的滑動窗口,從窗口里均勻采樣 M 幀,構(gòu)成 frame 序列,并輸入到一個 encoder \(f_\text{temporal}\) 里,得到 embedding \(z_{ij}\)。這個 encoder 由 3 層 CNN + transformer 組成,需要從頭開始訓練,而不是預訓練的。
- 然后,把學到的 embedding \(z_{ij}\) 映射到一組 skill \(\{c_k\}_{k=1}^K\) 里,skill 的數(shù)量 K 是預定義的超參數(shù)。為了訓練 \(f_\text{temporal}\),將 frame 序列隨機裁剪 旋轉(zhuǎn) 或加噪聲,做數(shù)據(jù)增強,然后讓增強前后的 embedding 映射到 \(c_k\) 的概率分布 \(p_{ij}\) 盡可能相似。具體的,對于兩個從同一個 frame 序列變換得到的 embedding,其中一個概率分布是用一個 線性層 + softmax 得到的,而另一個是通過 Sinkhorn-Knopp 聚類方法得到的(我并不懂這個聚類方法)。
- 為了讓不同 embodiment 共享相同的 skill space,XSkill 使用 data sampling 和 entropy regularization 和 Sinkhorn-Knopp 聚類等神秘技術(shù),對齊不同 embodiment 的 embedding space。(這一塊沒看懂)
- time contrastive learning:XSkill 假設(shè)處于長度為 \(w_p\) 的時間窗口內(nèi)的兩個 frame 序列,它們的 embedding 映射到 skill 空間的概率分布 \(p_{ij}\) 應該盡可能相似,而處于長度 \(w_n\) 的時間窗口外兩個 frame 序列的 \(p_{ij}\) 應該盡可能不相似,從而構(gòu)造了 InfoNCE loss。
② transfer:
- 用 imitation learning 學一個 diffusion policy \(p(\boldsymbol{a_t} | s_t,z_t)\),其中 \(\boldsymbol{a_t}\) 是長度為 L 的動作序列,\(z_t\) 是得到的 embedding,而狀態(tài) \(s_t\) 包含機器人本體感覺和 visual observation。
- 這個 imitation learning 應該直接在 robot demo 軌跡數(shù)據(jù)集上學。
③ compose:
- 在 compose 階段,我們得到一條新 task 的 human demo 軌跡,需要 ① 從里面分出 skill,② 操作機器人完成各個 skill。
- 在 discover 步驟訓練的 線性層 + softmax skill 分類器,可以用來從 human 新軌跡中提取出 task 序列 \(\tilde z\) 。
- 為了避免 robot 執(zhí)行某個 skil 失敗,但是 robot 仍然按照 skill 序列繼續(xù)執(zhí)行,導致后續(xù)操作都失敗的問題,(以及 robot 無意中完成了某些后續(xù) skill,但 robot 不知道自己完成了,仍然按照 skill 序列繼續(xù)執(zhí)行,從而浪費時間的問題),這篇文章使用一個 skill alignment transformer \(\phi(z_t | o_t,\tilde z)\),它根據(jù)目前的 observation 輸出下一個應該執(zhí)行的 skill,使用 robot demo 軌跡數(shù)據(jù)集訓練。
(Sinkhorn-Knopp 聚類方法:
- 給定一個 embedding space,Sinkhorn-Knopp 聚類方法將所有點分為 K 類,每一類的樣本數(shù)量相同。
- 它能同時學到 1. K 個聚類中心的位置,2. 所有點的分類概率。
- 它的核心思想是求解一個最優(yōu)傳輸矩陣,通過一個比喻來理解:把每個聚類中心比作工廠位置,每個 embedding 點比作一個商品,embedding 離聚類中心的距離比作商品運往工廠的距離。
- 參考博客:https://zhuanlan.zhihu.com/p/10971105566
Task Transfer by Preference-Based Cost Learning
- arxiv:https://arxiv.org/abs/1805.04686
- 來源:[mask]
- 主要內(nèi)容:
- 這是一篇 AAAI 2019 的文章,關(guān)注如何使用 human preference 來做 RL 的 transfer learning。
- 這篇文章的 preference 形式,不是成對比較 \((\sigma_0, \sigma_1, p)\),而是給定一批軌跡或 (s,a),挑出一個或幾個好的。
- 并且,這篇文章用 cost 來代替 reward,希望最小化 cost,這與最大化 reward 等價。
- 核心創(chuàng)新點:① 引入 preference 來學 transfer RL 的 cost function,② 改進了 adversarial MaxEnt IRL。
- 什么是 transfer learning:
- 我們有一些 source task 上的數(shù)據(jù),需要訓練一個完成 target task 的策略。
- (deepseek 總結(jié)的)故事:
- 在任務遷移(Task Transfer)中,我們有一個“基礎(chǔ)任務”(比如讓機器人往任意方向移動)的專家演示樣本(軌跡集合 \(B_i\)),但我們想學會一個“目標任務”(比如讓機器人只向前移動)。問題在于:
- ① 我們沒有目標任務的精確專家演示(只有基礎(chǔ)任務的)。
- ② 我們也不知道目標任務的具體成本函數(shù) \(c_{tar}\)(只知道基礎(chǔ)任務的 \(c_i\))。
- 解決方案:用專家偏好當“篩子”。想象你有一堆基礎(chǔ)任務演示(各種方向的移動軌跡),像一堆混合的豆子。你的目標是只留下“向前移動”的豆子(目標任務相關(guān)的軌跡)。但你自己不會分豆子(不知道 \(c_{tar}\))。怎么辦呢?你請了一位懂行的專家(知道什么是“向前移動”),每次給專家看一小把豆子(軌跡樣本),讓他把最接近目標任務的豆子(最偏好的軌跡)挑出來。
- 這是一篇 AAAI 2019 的文章,關(guān)注如何使用 human preference 來做 RL 的 transfer learning。
01 MaxEnt IRL
- Inverse RL(逆強化學習):給定一些專家軌跡,希望學出一個 cost function,使得專家軌跡的 cost 最小。
- MaxEnt IRL:它最大化策略 \(p(\tau)\) 的熵,同時保證策略的 cost 與 expert 策略 \(p_E(\tau)\) 的 cost 一致。優(yōu)化問題如下:
- 可以推導出,最優(yōu) \(p(\tau)\) 是 cost \(- C_\theta(\tau)\) 的玻爾茲曼分布,即 \(p(\tau) = \frac1Z \exp(- C_\theta(\tau))\) 。
02 Adversarial MaxEnt IRL
- 如果最優(yōu) \(p(\tau) = \frac1Z \exp(- C_\theta(\tau))\),問題可以轉(zhuǎn)化成,用 expert 軌跡數(shù)據(jù)集 \(B\) 上的最大似然估計,求解最優(yōu) \(\theta\),即 \(max_\theta \mathbb E_{\tau\sim B} [\log p(\tau)]\) 。
- 這個最大似然估計可以變成一個 GAN 的形式,其中 discriminator 的形式為
- 個人理解,discriminator 試圖從真數(shù)據(jù)(\(p(\tau)\))和假數(shù)據(jù)(\(G(\tau)\))中分辨真數(shù)據(jù),這對應了 \(D(\tau)\) 分母和分子。
- 模型訓練到最優(yōu)時,generator G 將會訓成 \(p(\tau) = \frac{1}{Z} \exp(-C(\tau))\),即完全訓成生成專家軌跡的分布。
- 似乎 GAN 方法有理論保證,以前并不知道。
03 神秘 preference cost 方法
- 論文把給定一批 trajectory,選擇其中專家滿意的 trajectory 的過程,看作拒絕抽樣。
- 對于基礎(chǔ)任務樣本集 \(B_i\) 中的每一條軌跡 \(\tau\),它被專家“接受”(選中留下來)的概率 \(p_{sel}(\tau)\) 是多少?
- 作者提出了一個核心假設(shè):這個概率應該和 \(\tau\) 在目標任務下的“好”程度成正比,同時反比于它在當前基礎(chǔ)任務下的“好”程度(因為當前任務可能產(chǎn)生很多與目標無關(guān)的軌跡)。
- 感覺這個假設(shè),是為了后面的結(jié)論湊出來的。
- 用成本函數(shù)解釋“好”程度:在強化學習中,“好”通常意味著成本低(或獎勵高)。假設(shè)基礎(chǔ)任務的真實成本是 \(C_i(\tau)\),目標任務的真實成本是 \(C_{tar}(\tau)\)。因此,軌跡 \(\tau\) 被專家接受的概率可以建模為:
- 其中,\(\exp(-C_{tar}(\tau))\):代表 \tau 在目標任務下的“好”程度(成本越低,指數(shù)值越大)。\(\exp(C_i(\tau))\):代表 \tau 在當前基礎(chǔ)任務下的“普遍”程度。
- 定義 \(C_h(\tau) = C_{tar}(\tau) - C_i(\tau)\),稱之為 Hidden Cost (隱形成本) 軌跡。
- \(C_h(\tau)\) 衡量了軌跡 \(\tau\) 從當前基礎(chǔ)任務遷移到目標任務需要付出的額外代價。值越大,說明這條軌跡離目標任務要求越遠。
- 代入后,接受概率變?yōu)椋?span id="w0obha2h00" class="math inline">\(p_{sel}(\tau) \propto \exp(-C_h(\tau))\)
- 假設(shè)基礎(chǔ)任務樣本集 \(B_i\) 的軌跡分布是 \(p_i(\tau)\),經(jīng)過專家按照 \(p_{sel}(\tau) \propto \exp(-C_h(\tau)) = \exp(-(C_{tar}(\tau) - C_i(\tau)))\) 篩選后,保留下來的新樣本集 \(B_{i+1}\) 的分布 \(p_{i+1}(\tau)\) 會是什么?
- 一條軌跡 \tau 能留在新集合中的概率 = 它原本在 \(B_i\) 中的概率 \(p_i(\tau)\) * 它被專家選中的概率 \(p_{sel}(\tau)\),即
- \(p_{i+1}(\tau) \propto p_i(\tau) * p_{sel}(\tau) \propto p_i(\tau) * \exp(-(C_{tar}(\tau) - C_i(\tau)))\)
- 根據(jù) MaxEnt IRL 的假設(shè),\(p_i(\tau) \propto \exp(-C_i(\tau))\)(基礎(chǔ)任務的軌跡服從玻爾茲曼分布)。
- 代入:\(p_{i+1}(\tau) \propto \exp(-C_i(\tau)) * \exp(-(C_{tar}(\tau) - C_i(\tau))) = \exp(-C_{tar}(\tau))\)
- 核心結(jié)論:\(p_{i+1}(\tau) \propto \exp(-C_{tar}(\tau))\)。
- 即,經(jīng)過這次專家偏好篩選,保留下來樣本的分布 \(p_{i+1}(\tau)\) 直接變成了目標任務軌跡的理想分布。
04 基于 (s,a) pair 的 Adversarial MaxEnt IRL
- 作者聲稱,Adversarial MaxEnt IRL 難以得到 cost function \(c(s,a)\),如果魔改一下,讓 generator 生成 action,discriminator 分辨 (s,a) pair 是否是真的,則可以解決這個問題。
- 把 discriminator 的形式修改成基于 (s,a) pair 的:
- 可以由上式推出一個 \(\tilde c(s, a)\),相比 cost \(c(s, a)\) 只差一個常數(shù):
- 總之,這種生成 (s,a) pair 的方法,也能得到最優(yōu)軌跡,論文有證明。
實驗:
- 實驗主要比的 baseline 是 GAIL(Generative Adversarial Imitation Learning)。
- GAIL 貌似是一種基于 GAN 思想的 imitation learning 方法。
- Discriminator 負責區(qū)分真假樣本,用 cross-entropy loss 來學。
- Generator 是一個策略 \(\pi(a|s)\),用 RL 來學,reward 是 \(r(s, a) = log(D(s, a)) - log(1 - D(s, a))\)。
- 這篇文章推出來的 reward 是 \(- [\log(1 - D(s, a)) - \log D(s, a) - \log G(s, a)]\),多了一項。\(\log G(s, a)\) 其實是策略 \(G(s, a)\) 的熵,所以 reward 相當于鼓勵最大化策略的熵。
- 實驗跟 MAML 比了,但 MAML 是 1. 學一個最好的參數(shù)初始點,2. 讓參數(shù)快速學到新任務,不知道第 1 步在這篇文章是怎么做的。
Transfer Learning in Deep Reinforcement Learning: A Survey
- arxiv:https://www.arxiv.org/abs/2009.07888
- ieee xplore:https://ieeexplore.ieee.org/abstract/document/10172347
- 來源:[mask]
- 主要內(nèi)容:
- 這是一篇 2023 年發(fā)表在 TPAMI 上的 RL 的 transfer learning 的綜述,我好像不太擅長看綜述。
- 以下是 deepseek 生成的總結(jié)。
以下是對強化學習(RL)中遷移學習(Transfer Learning)的總結(jié),按方法分類梳理核心思路與關(guān)鍵工作:
?? 1 獎勵塑形(Reward Shaping)
核心思想:通過外部知識修改獎勵函數(shù),引導智能體學習更高效。
關(guān)鍵工作:
- PBRS(Potential-Based Reward Shaping):
基于狀態(tài)的靜態(tài)勢函數(shù)(Potential Function)生成附加獎勵:F = γΦ(s') - Φ(s),保證策略不變性。 - PBA(Potential-Based Advice):
擴展勢函數(shù)到狀態(tài)-動作空間:F = γΦ(s',a') - Φ(s,a),需在線學習。 - DPBA(Dynamic Value Function Advice):
動態(tài)學習勢函數(shù)(作為額外Q函數(shù)),允許任意外部知識(如專家策略)轉(zhuǎn)化為獎勵。
應用場景:機器人控制、對話系統(tǒng)(如激勵符合人類期望的行為)。
?? 2 從演示中學習(Learning from Demonstrations, LfD)
(上一篇 preference-based transfer learning 就是這種思想。)
核心思想:利用專家演示數(shù)據(jù)(如人類操作記錄)加速探索。
關(guān)鍵工作:
- DQfD(Deep Q-Learning from Demonstrations)
在經(jīng)驗池中混合演示數(shù)據(jù)和自生成數(shù)據(jù),優(yōu)先采樣專家數(shù)據(jù)。 - GAIL(Generative Adversarial Imitation Learning)
通過對抗訓練匹配專家分布:判別器區(qū)分專家與智能體行為,生成器模仿專家。 - SAIL(Self-Adaptive Imitation Learning)
逐步用高質(zhì)量自生成軌跡替代次優(yōu)演示,解決非完美專家問題。
挑戰(zhàn):演示數(shù)據(jù)有限、覆蓋狀態(tài)不全(需引入熵正則化鼓勵探索)。
?? 3 策略遷移(Policy Transfer)
核心思想:直接復用或蒸餾源策略到目標域。
關(guān)鍵方法:
- 策略蒸餾(Policy Distillation)
將多個教師策略的知識壓縮到單一學生策略(如最小化策略間KL散度)。 - Distral算法
多任務策略共享一個中心策略,通過熵正則化平衡模仿與探索。 - 策略復用(Policy Reuse)
動態(tài)組合多個源策略(如按性能加權(quán)選擇),需評估策略在目標域的期望收益。
優(yōu)勢:適用于多教師策略遷移(如不同機器人共享技能)。
?? 4 任務間映射(Inter-Task Mapping)
核心思想:學習源域與目標域的狀態(tài)/動作/動態(tài)映射函數(shù)。
關(guān)鍵工作:
- 狀態(tài)映射:
將源域狀態(tài)映射到目標域(如機器人形態(tài)不同但任務相似)。 - UMA(無監(jiān)督流形對齊)
自動對齊跨域軌跡,生成目標域“偽專家軌跡”指導學習。 - 動態(tài)映射:
學習轉(zhuǎn)移動態(tài)的潛在表示(如 <s,a,s'> 三元組的隱空間對齊)。
應用:迷宮導航等低維空間任務,需領(lǐng)域間存在結(jié)構(gòu)相似性。
?? 5 表示遷移(Representation Transfer)
核心思想:遷移共享的潛在表示(如解耦狀態(tài)、獎勵、動態(tài))。
關(guān)鍵方法:
- 漸進網(wǎng)絡(luò)(Progressive Networks):
凍結(jié)舊任務網(wǎng)絡(luò)參數(shù),逐步擴展新列(Column)并復用舊特征。 - 后繼表示(Successor Representations, SR):
將狀態(tài)價值分解為后繼狀態(tài)分布(與任務無關(guān))和獎勵映射(任務相關(guān)),實現(xiàn)快速適應新獎勵。 - 通用價值函數(shù)(UVFA):
解耦狀態(tài)與目標(Goal),同一網(wǎng)絡(luò)處理多目標任務(如迷宮導航到不同終點)。
優(yōu)勢:支持零樣本遷移(如目標變化無需重新訓練)。
?? 總結(jié)對比:
| 方法 | 核心知識形式 | 適用場景 |
|---|---|---|
| 獎勵塑形 | 修改后的獎勵函數(shù) | 需外部引導(如專家規(guī)則) |
| 從演示中學習 | 專家軌跡數(shù)據(jù) | 模仿學習、稀疏獎勵任務 |
| 策略遷移 | 源策略參數(shù) | 多教師策略復用 |
| 任務間映射 | 跨域映射函數(shù) | 領(lǐng)域間存在顯式對應關(guān)系 |
| 表示遷移 | 解耦的潛在表示 | 多任務學習、跨目標泛化 |
關(guān)鍵挑戰(zhàn):領(lǐng)域差異過大、次優(yōu)知識利用、評估指標統(tǒng)一(如泛化性 vs 最終性能)。
當前研究趨勢是多方法融合(如獎勵塑形 + 演示學習)和魯棒表示學習。

浙公網(wǎng)安備 33010602011771號