論文速讀記錄 | 2025.05

2025.05 | 速讀文章紀錄

Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learning
XSkill: Cross Embodiment Skill Discovery
Task Transfer by Preference-Based Cost Learning
Transfer Learning in Deep Reinforcement Learning: A Survey

Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learning

url：https://www.sciencedirect.com/science/article/pii/S0950705124014588
open review：https://openreview.net/forum?id=kCcIYc98ho
來源：偶然得知的文章。
主要內(nèi)容：
- 這篇文章最初投稿在 ICLR 2024，6 6 5 reject，后來于 2025 年 1 月發(fā)表在 Knowledge-Based Systems 期刊，不太了解這個期刊。
- 主要 method：提出了 MCP（Mixing corrupted preferences）方法，用于應對 PbRL 里的 noisy preference label，其中 noisy label 從 B-Pref 的模型里生成。
- MCP 貌似是 mixup 方法在 PbRL 里的直接應用，具體是把兩個 query \((\sigma_0, \sigma_1, p), (\sigma_0', \sigma_1', p')\) 進行線性組合，得到兩個新的假 query：\([\lambda\sigma_0 + (1-\lambda)\sigma_0', ~ \lambda\sigma_1 +(1-\lambda)\sigma_1', ~ \lambda p + (1-\lambda)p']\) 和另一個對稱生成的 query，其中 \(\lambda\sim\text{Beta}(\beta,\beta)\)，我也不懂 beta 分布，貌似 λ 會是 0 1 之間的值，且比較貼近 0 或 1。
- 這篇文章希望通過這樣的方式，讓 reward model 在每個 preference 數(shù)據(jù)點的鄰域周圍，都有一定泛化性。

XSkill: Cross Embodiment Skill Discovery

arxiv：https://arxiv.org/abs/2307.09955
website：https://xskill.cs.columbia.edu/
open review：https://openreview.net/forum?id=8L6pHd9aS6w
GitHub：https://github.com/real-stanford/xskill
來源：[mask]
主要內(nèi)容：
- 這是一篇 CoRL 2023 的論文，關(guān)注 robotics 方向。
- 這篇論文提出了 XSkill（cross embodiment skill discovery）方法，包含非常吸引人的框架：
  - 可以通過對齊 human 和 robot 的動作，從 human 的軌跡中學到可重用的技能（skill），比如開門開燈拉抽屜；
  - 然后，讓 robot 學會這些技能；
  - 最后，對于一個新 task，我們只需要給一條 human 軌跡，就可以通過先識別其中的 skill，再讓 robot 進行規(guī)劃、執(zhí)行 skill，這樣 one-shot 學會新 task。
- 主要 setting：可用的數(shù)據(jù)集有 ① human expert demo 的軌跡數(shù)據(jù)集，② robot 遙操作軌跡數(shù)據(jù)集。這兩個數(shù)據(jù)集都是未分割和未對齊的。

XSkill 分為三個階段：discover、transfer 和 compose。

① discover：

首先，對于 human demo 和 robot demo 數(shù)據(jù)集里的視頻，我們使用一個長度為 L 的滑動窗口，從窗口里均勻采樣 M 幀，構(gòu)成 frame 序列，并輸入到一個 encoder \(f_\text{temporal}\) 里，得到 embedding \(z_{ij}\)。這個 encoder 由 3 層 CNN + transformer 組成，需要從頭開始訓練，而不是預訓練的。
然后，把學到的 embedding \(z_{ij}\) 映射到一組 skill \(\{c_k\}_{k=1}^K\) 里，skill 的數(shù)量 K 是預定義的超參數(shù)。為了訓練 \(f_\text{temporal}\)，將 frame 序列隨機裁剪旋轉(zhuǎn) 或加噪聲，做數(shù)據(jù)增強，然后讓增強前后的 embedding 映射到 \(c_k\) 的概率分布 \(p_{ij}\) 盡可能相似。具體的，對于兩個從同一個 frame 序列變換得到的 embedding，其中一個概率分布是用一個線性層 + softmax 得到的，而另一個是通過 Sinkhorn-Knopp 聚類方法得到的（我并不懂這個聚類方法）。
為了讓不同 embodiment 共享相同的 skill space，XSkill 使用 data sampling 和 entropy regularization 和 Sinkhorn-Knopp 聚類等神秘技術(shù)，對齊不同 embodiment 的 embedding space。（這一塊沒看懂）
time contrastive learning：XSkill 假設(shè)處于長度為 \(w_p\) 的時間窗口內(nèi)的兩個 frame 序列，它們的 embedding 映射到 skill 空間的概率分布 \(p_{ij}\) 應該盡可能相似，而處于長度 \(w_n\) 的時間窗口外兩個 frame 序列的 \(p_{ij}\) 應該盡可能不相似，從而構(gòu)造了 InfoNCE loss。

② transfer：

用 imitation learning 學一個 diffusion policy \(p(\boldsymbol{a_t} | s_t,z_t)\)，其中 \(\boldsymbol{a_t}\) 是長度為 L 的動作序列，\(z_t\) 是得到的 embedding，而狀態(tài) \(s_t\) 包含機器人本體感覺和 visual observation。
這個 imitation learning 應該直接在 robot demo 軌跡數(shù)據(jù)集上學。

③ compose：

在 compose 階段，我們得到一條新 task 的 human demo 軌跡，需要 ① 從里面分出 skill，② 操作機器人完成各個 skill。
在 discover 步驟訓練的線性層 + softmax skill 分類器，可以用來從 human 新軌跡中提取出 task 序列 \(\tilde z\) 。
為了避免 robot 執(zhí)行某個 skil 失敗，但是 robot 仍然按照 skill 序列繼續(xù)執(zhí)行，導致后續(xù)操作都失敗的問題，（以及 robot 無意中完成了某些后續(xù) skill，但 robot 不知道自己完成了，仍然按照 skill 序列繼續(xù)執(zhí)行，從而浪費時間的問題），這篇文章使用一個 skill alignment transformer \(\phi(z_t | o_t,\tilde z)\)，它根據(jù)目前的 observation 輸出下一個應該執(zhí)行的 skill，使用 robot demo 軌跡數(shù)據(jù)集訓練。

（Sinkhorn-Knopp 聚類方法：

給定一個 embedding space，Sinkhorn-Knopp 聚類方法將所有點分為 K 類，每一類的樣本數(shù)量相同。
它能同時學到 1. K 個聚類中心的位置，2. 所有點的分類概率。
它的核心思想是求解一個最優(yōu)傳輸矩陣，通過一個比喻來理解：把每個聚類中心比作工廠位置，每個 embedding 點比作一個商品，embedding 離聚類中心的距離比作商品運往工廠的距離。
參考博客：https://zhuanlan.zhihu.com/p/10971105566

Task Transfer by Preference-Based Cost Learning

arxiv：https://arxiv.org/abs/1805.04686
來源：[mask]
主要內(nèi)容：
- 這是一篇 AAAI 2019 的文章，關(guān)注如何使用 human preference 來做 RL 的 transfer learning。
  - 這篇文章的 preference 形式，不是成對比較 \((\sigma_0, \sigma_1, p)\)，而是給定一批軌跡或 (s,a)，挑出一個或幾個好的。
  - 并且，這篇文章用 cost 來代替 reward，希望最小化 cost，這與最大化 reward 等價。
  - 核心創(chuàng)新點：① 引入 preference 來學 transfer RL 的 cost function，② 改進了 adversarial MaxEnt IRL。
- 什么是 transfer learning：
  - 我們有一些 source task 上的數(shù)據(jù)，需要訓練一個完成 target task 的策略。
- （deepseek 總結(jié)的）故事：
  - 在任務遷移（Task Transfer）中，我們有一個“基礎(chǔ)任務”（比如讓機器人往任意方向移動）的專家演示樣本（軌跡集合 \(B_i\)），但我們想學會一個“目標任務”（比如讓機器人只向前移動）。問題在于：
  - ① 我們沒有目標任務的精確專家演示（只有基礎(chǔ)任務的）。
  - ② 我們也不知道目標任務的具體成本函數(shù) \(c_{tar}\)（只知道基礎(chǔ)任務的 \(c_i\)）。
  - 解決方案：用專家偏好當“篩子”。想象你有一堆基礎(chǔ)任務演示（各種方向的移動軌跡），像一堆混合的豆子。你的目標是只留下“向前移動”的豆子（目標任務相關(guān)的軌跡）。但你自己不會分豆子（不知道 \(c_{tar}\)）。怎么辦呢？你請了一位懂行的專家（知道什么是“向前移動”），每次給專家看一小把豆子（軌跡樣本），讓他把最接近目標任務的豆子（最偏好的軌跡）挑出來。

01 MaxEnt IRL

Inverse RL（逆強化學習）：給定一些專家軌跡，希望學出一個 cost function，使得專家軌跡的 cost 最小。
MaxEnt IRL：它最大化策略 \(p(\tau)\) 的熵，同時保證策略的 cost 與 expert 策略 \(p_E(\tau)\) 的 cost 一致。優(yōu)化問題如下：

\[\begin{align*} \max_{\theta} \quad & -\sum_{\tau} p(\tau) \log p(\tau) \\ \text{s.t.} \quad & \mathbb{E}_{p(\tau)}[C_{\theta}(\tau_i)] = \mathbb{E}_{p_{E}(\tau)}[C_{\theta}(\tau_i)], \tau_i \in B, \\ & \sum_{i} p(\tau_i) = 1, \quad p(\tau_i) \geq 0. \end{align*} \]

可以推導出，最優(yōu) \(p(\tau)\) 是 cost \(- C_\theta(\tau)\) 的玻爾茲曼分布，即 \(p(\tau) = \frac1Z \exp(- C_\theta(\tau))\) 。

02 Adversarial MaxEnt IRL

如果最優(yōu) \(p(\tau) = \frac1Z \exp(- C_\theta(\tau))\)，問題可以轉(zhuǎn)化成，用 expert 軌跡數(shù)據(jù)集 \(B\) 上的最大似然估計，求解最優(yōu) \(\theta\)，即 \(max_\theta \mathbb E_{\tau\sim B} [\log p(\tau)]\) 。
這個最大似然估計可以變成一個 GAN 的形式，其中 discriminator 的形式為

\[D(\tau) = \frac{p(\tau)}{p(\tau) + G(\tau)} = \frac{\frac{1}{Z} \exp(-C(\tau))}{\frac{1}{Z} \exp(-C(\tau)) + G(\tau)} \]

個人理解，discriminator 試圖從真數(shù)據(jù)（\(p(\tau)\)）和假數(shù)據(jù)（\(G(\tau)\)）中分辨真數(shù)據(jù)，這對應了 \(D(\tau)\) 分母和分子。
模型訓練到最優(yōu)時，generator G 將會訓成 \(p(\tau) = \frac{1}{Z} \exp(-C(\tau))\)，即完全訓成生成專家軌跡的分布。
似乎 GAN 方法有理論保證，以前并不知道。

03 神秘 preference cost 方法

論文把給定一批 trajectory，選擇其中專家滿意的 trajectory 的過程，看作拒絕抽樣。
對于基礎(chǔ)任務樣本集 \(B_i\) 中的每一條軌跡 \(\tau\)，它被專家“接受”（選中留下來）的概率 \(p_{sel}(\tau)\) 是多少？
- 作者提出了一個核心假設(shè)：這個概率應該和 \(\tau\) 在目標任務下的“好”程度成正比，同時反比于它在當前基礎(chǔ)任務下的“好”程度（因為當前任務可能產(chǎn)生很多與目標無關(guān)的軌跡）。
- 感覺這個假設(shè)，是為了后面的結(jié)論湊出來的。
用成本函數(shù)解釋“好”程度：在強化學習中，“好”通常意味著成本低（或獎勵高）。假設(shè)基礎(chǔ)任務的真實成本是 \(C_i(\tau)\)，目標任務的真實成本是 \(C_{tar}(\tau)\)。因此，軌跡 \(\tau\) 被專家接受的概率可以建模為：

\[p_{sel}(\tau) \propto \exp(-C_{tar}(\tau) + C_i(\tau)) \]

其中，\(\exp(-C_{tar}(\tau))\)：代表 \tau 在目標任務下的“好”程度（成本越低，指數(shù)值越大）。\(\exp(C_i(\tau))\)：代表 \tau 在當前基礎(chǔ)任務下的“普遍”程度。
定義 \(C_h(\tau) = C_{tar}(\tau) - C_i(\tau)\)，稱之為 Hidden Cost (隱形成本) 軌跡。
- \(C_h(\tau)\) 衡量了軌跡 \(\tau\) 從當前基礎(chǔ)任務遷移到目標任務需要付出的額外代價。值越大，說明這條軌跡離目標任務要求越遠。
- 代入后，接受概率變?yōu)椋?span id="w0obha2h00" class="math inline">\(p_{sel}(\tau) \propto \exp(-C_h(\tau))\)
假設(shè)基礎(chǔ)任務樣本集 \(B_i\) 的軌跡分布是 \(p_i(\tau)\)，經(jīng)過專家按照 \(p_{sel}(\tau) \propto \exp(-C_h(\tau)) = \exp(-(C_{tar}(\tau) - C_i(\tau)))\) 篩選后，保留下來的新樣本集 \(B_{i+1}\) 的分布 \(p_{i+1}(\tau)\) 會是什么？
- 一條軌跡 \tau 能留在新集合中的概率 = 它原本在 \(B_i\) 中的概率 \(p_i(\tau)\) * 它被專家選中的概率 \(p_{sel}(\tau)\)，即
- \(p_{i+1}(\tau) \propto p_i(\tau) * p_{sel}(\tau) \propto p_i(\tau) * \exp(-(C_{tar}(\tau) - C_i(\tau)))\)
- 根據(jù) MaxEnt IRL 的假設(shè)，\(p_i(\tau) \propto \exp(-C_i(\tau))\)（基礎(chǔ)任務的軌跡服從玻爾茲曼分布）。
- 代入：\(p_{i+1}(\tau) \propto \exp(-C_i(\tau)) * \exp(-(C_{tar}(\tau) - C_i(\tau))) = \exp(-C_{tar}(\tau))\)
核心結(jié)論：\(p_{i+1}(\tau) \propto \exp(-C_{tar}(\tau))\)。
即，經(jīng)過這次專家偏好篩選，保留下來樣本的分布 \(p_{i+1}(\tau)\) 直接變成了目標任務軌跡的理想分布。

04 基于 (s,a) pair 的 Adversarial MaxEnt IRL

作者聲稱，Adversarial MaxEnt IRL 難以得到 cost function \(c(s,a)\)，如果魔改一下，讓 generator 生成 action，discriminator 分辨 (s,a) pair 是否是真的，則可以解決這個問題。
把 discriminator 的形式修改成基于 (s,a) pair 的：

\[D(\tau) = \frac{\frac{1}{Z} \exp(-c(s,a))}{\frac{1}{Z} \exp(-c(s,a)) + G(s,a)} \]

可以由上式推出一個 \(\tilde c(s, a)\)，相比 cost \(c(s, a)\) 只差一個常數(shù)：

\[\begin{aligned} \tilde c(s, a) & = \log(1 - D(s, a)) - \log D(s, a) - \log G(s, a) \\ & = c(s, a) + \log Z \end{aligned} \]

總之，這種生成 (s,a) pair 的方法，也能得到最優(yōu)軌跡，論文有證明。

實驗：

實驗主要比的 baseline 是 GAIL（Generative Adversarial Imitation Learning）。
- GAIL 貌似是一種基于 GAN 思想的 imitation learning 方法。
- Discriminator 負責區(qū)分真假樣本，用 cross-entropy loss 來學。
- Generator 是一個策略 \(\pi(a|s)\)，用 RL 來學，reward 是 \(r(s, a) = log(D(s, a)) - log(1 - D(s, a))\)。
- 這篇文章推出來的 reward 是 \(- [\log(1 - D(s, a)) - \log D(s, a) - \log G(s, a)]\)，多了一項。\(\log G(s, a)\) 其實是策略 \(G(s, a)\) 的熵，所以 reward 相當于鼓勵最大化策略的熵。
實驗跟 MAML 比了，但 MAML 是 1. 學一個最好的參數(shù)初始點，2. 讓參數(shù)快速學到新任務，不知道第 1 步在這篇文章是怎么做的。

Transfer Learning in Deep Reinforcement Learning: A Survey

arxiv：https://www.arxiv.org/abs/2009.07888
ieee xplore：https://ieeexplore.ieee.org/abstract/document/10172347
來源：[mask]
主要內(nèi)容：
- 這是一篇 2023 年發(fā)表在 TPAMI 上的 RL 的 transfer learning 的綜述，我好像不太擅長看綜述。
- 以下是 deepseek 生成的總結(jié)。

以下是對強化學習（RL）中遷移學習（Transfer Learning）的總結(jié)，按方法分類梳理核心思路與關(guān)鍵工作：

?? 1 獎勵塑形（Reward Shaping）

核心思想：通過外部知識修改獎勵函數(shù)，引導智能體學習更高效。
關(guān)鍵工作：

PBRS（Potential-Based Reward Shaping）：
基于狀態(tài)的靜態(tài)勢函數(shù)（Potential Function）生成附加獎勵：F = γΦ(s') - Φ(s)，保證策略不變性。
PBA（Potential-Based Advice）：
擴展勢函數(shù)到狀態(tài)-動作空間：F = γΦ(s',a') - Φ(s,a)，需在線學習。
DPBA（Dynamic Value Function Advice）：
動態(tài)學習勢函數(shù)（作為額外Q函數(shù)），允許任意外部知識（如專家策略）轉(zhuǎn)化為獎勵。

應用場景：機器人控制、對話系統(tǒng)（如激勵符合人類期望的行為）。

?? 2 從演示中學習（Learning from Demonstrations, LfD）

（上一篇 preference-based transfer learning 就是這種思想。）

核心思想：利用專家演示數(shù)據(jù)（如人類操作記錄）加速探索。
關(guān)鍵工作：

DQfD（Deep Q-Learning from Demonstrations）
在經(jīng)驗池中混合演示數(shù)據(jù)和自生成數(shù)據(jù)，優(yōu)先采樣專家數(shù)據(jù)。
GAIL（Generative Adversarial Imitation Learning）
通過對抗訓練匹配專家分布：判別器區(qū)分專家與智能體行為，生成器模仿專家。
SAIL（Self-Adaptive Imitation Learning）
逐步用高質(zhì)量自生成軌跡替代次優(yōu)演示，解決非完美專家問題。

挑戰(zhàn)：演示數(shù)據(jù)有限、覆蓋狀態(tài)不全（需引入熵正則化鼓勵探索）。

?? 3 策略遷移（Policy Transfer）

核心思想：直接復用或蒸餾源策略到目標域。
關(guān)鍵方法：

策略蒸餾（Policy Distillation）
將多個教師策略的知識壓縮到單一學生策略（如最小化策略間KL散度）。
Distral算法
多任務策略共享一個中心策略，通過熵正則化平衡模仿與探索。
策略復用（Policy Reuse）
動態(tài)組合多個源策略（如按性能加權(quán)選擇），需評估策略在目標域的期望收益。

優(yōu)勢：適用于多教師策略遷移（如不同機器人共享技能）。

?? 4 任務間映射（Inter-Task Mapping）

核心思想：學習源域與目標域的狀態(tài)/動作/動態(tài)映射函數(shù)。
關(guān)鍵工作：

狀態(tài)映射：
將源域狀態(tài)映射到目標域（如機器人形態(tài)不同但任務相似）。
UMA（無監(jiān)督流形對齊）
自動對齊跨域軌跡，生成目標域“偽專家軌跡”指導學習。
動態(tài)映射：
學習轉(zhuǎn)移動態(tài)的潛在表示（如 <s,a,s'> 三元組的隱空間對齊）。

應用：迷宮導航等低維空間任務，需領(lǐng)域間存在結(jié)構(gòu)相似性。

?? 5 表示遷移（Representation Transfer）

核心思想：遷移共享的潛在表示（如解耦狀態(tài)、獎勵、動態(tài)）。
關(guān)鍵方法：

漸進網(wǎng)絡(luò)（Progressive Networks）：
凍結(jié)舊任務網(wǎng)絡(luò)參數(shù)，逐步擴展新列（Column）并復用舊特征。
后繼表示（Successor Representations, SR）：
將狀態(tài)價值分解為后繼狀態(tài)分布（與任務無關(guān)）和獎勵映射（任務相關(guān)），實現(xiàn)快速適應新獎勵。
通用價值函數(shù)（UVFA）：
解耦狀態(tài)與目標（Goal），同一網(wǎng)絡(luò)處理多目標任務（如迷宮導航到不同終點）。

優(yōu)勢：支持零樣本遷移（如目標變化無需重新訓練）。

?? 總結(jié)對比：

方法	核心知識形式	適用場景
獎勵塑形	修改后的獎勵函數(shù)	需外部引導（如專家規(guī)則）
從演示中學習	專家軌跡數(shù)據(jù)	模仿學習、稀疏獎勵任務
策略遷移	源策略參數(shù)	多教師策略復用
任務間映射	跨域映射函數(shù)	領(lǐng)域間存在顯式對應關(guān)系
表示遷移	解耦的潛在表示	多任務學習、跨目標泛化

關(guān)鍵挑戰(zhàn)：領(lǐng)域差異過大、次優(yōu)知識利用、評估指標統(tǒng)一（如泛化性 vs 最終性能）。
當前研究趨勢是多方法融合（如獎勵塑形 + 演示學習）和魯棒表示學習。

posted @ 2025-05-02 17:47 MoonOut 閱讀(134) 評論(0) 收藏舉報

刷新頁面返回頂部

月出兮彩云歸 ??