Skill Discovery | RGSD：基于高質(zhì)量參考軌跡，預訓練 skill space

① 用對比學習把參考軌跡的 embedding 盡可能拉遠，② 使用 DIAYN reward 同時做模仿學習和 skill discovery。

論文標題：Reference Guided Skill Discovery。
ICLR 2026 的新文章。
arxiv：https://arxiv.org/abs/2510.06203
pdf：https://arxiv.org/pdf/2510.06203
html：https://arxiv.org/html/2510.06203
open review：https://openreview.net/forum?id=IaGf8Eh5Uo

1 解決的 gap 和 motivation
2 具體 method
3 實驗
4 為什么 RGSD 不能與 metra 相結(jié)合（根據(jù)論文原文）
5 相關思考

1 解決的 gap 和 motivation

首先，RGSD（reference guided skill discovery）這篇文章做的是技能發(fā)現(xiàn)（skill discovery），即，希望 agent 在沒有人工設定獎勵的情況下，自己學出一組多樣且有意義的技能，以便后續(xù)用于各種任務（如走到某處、躲避障礙）。

然而，現(xiàn)有的 skill discovery 方法在高自由度的系統(tǒng)中（如 69 維動作、359 維狀態(tài)的 SMPL 人形機器人），容易學出雜亂無章的無意義行為，比如抖腿抖手，而非站立跑步這種行為。高自由度系統(tǒng)中，探索空間太大，而真正有意義的技能只占一小部分。

因此，一個自然的想法是：我們可否利用一些參考（reference），即預先給定的 expert 軌跡，來引導 agent 學更有意義的行為呢？RGSD 在試圖做這件事，它的故事是，希望利用參考軌跡，預先構建一個 focus on 有意義 skill 的 skill latent space，然后在這個 latent space 里做 skill discovery。

原文是這樣說的：

為了克服高自由度技能發(fā)現(xiàn)中的維度災難，我們需要預先構建一個語義上有意義的技能潛在空間，并將探索限制在該空間內(nèi)。

在另一個角度，RGSD 是一個介于 skill discovery 和 imitation learning 之間的方法：

傳統(tǒng)無監(jiān)督方法（如 DIAYN、METRA）：通過最大化 skill 與 state 的互信息來鼓勵多樣性，但在高自由度系統(tǒng)中容易學出雜亂無章的動作，如四肢亂晃。
模仿學習方法（如 ASE、CALM）：能較好地復現(xiàn) reference motion，但缺乏發(fā)現(xiàn)新技能的能力，學到的技能范圍窄。

一句話總結(jié)：RGSD 通過先用 reference 軌跡構建有語義的 skill latent space，再在該 space 中并行進行 imitation learning 與 skill discovery，有效解決了高自由度系統(tǒng)中技能“無意義”的問題，既能高保真模仿，又能自動發(fā)現(xiàn)相關新技能，且在下游任務中表現(xiàn)優(yōu)異。

2 具體 method

2.1 DIAYN 簡述

DIAYN 的核心思想是：不同的技能應該導致不同的狀態(tài)分布。

目標：最大化技能變量 \(Z\) 和狀態(tài) \(S\) 之間的互信息 \(I(S; Z)\)。
互信息分解：\(I(S; Z) = H(Z) - H(Z|S)\)。

\(H(Z)\)：技能分布本身的熵，鼓勵技能多樣性（通過固定一個均勻分布的先驗 \(p(z)\) 來最大化）。
\(-H(Z|S)\)：給定一個狀態(tài)，技能的不確定性應該很小，即，從一個狀態(tài)應該能很容易地推斷出是哪個技能產(chǎn)生了它。

實現(xiàn)方式：

引入一個判別器（編碼器）\(q_\phi(z|s)\)，它負責根據(jù)狀態(tài) \(s\) 來預測技能 \(z\)。
策略 \(\pi_\theta(a|s, z)\) 的獎勵函數(shù)被設計為：鼓勵訪問那些能讓判別器輕松識別出技能 \(z\) 的狀態(tài)。

DIAYN 獎勵公式：\(r(s, z) = \log q_\phi(z|s) - \log p(z)\)

\(\log q_\phi(z|s)\)：鼓勵策略訪問能讓技能 \(z\) 被準確識別的狀態(tài)。
\(-\log p(z)\)：作為一個先驗項，如果某個技能 \(z\) 很少被采樣（\(p(z)\) 小），則獎勵更高，從而鼓勵探索所有技能。

2.2 RGSD 階段一：預訓練，構建有語義的 latent space

目標：將 reference motion \(\mathcal{M}\)（即 trajectory）的 embedding 嵌入到一個單位超球面中，使得同一 motion 的所有狀態(tài)嵌入方向一致，不同 motion 的嵌入方向分離。

方法：使用對比學習（InfoNCE Loss）訓練編碼器 \(q_\phi(z|s)\)。

編碼器建模：我們將 \(q_\phi(z|s)\) 建模為一個 von Mises–Fisher (vMF) distribution（好像可以理解為球面上的高斯分布）：\(q_\phi(z|s) \propto \exp(\kappa \mu_\phi(s)^\top z)\)，其中 \(\mu_\phi(s)\) 是網(wǎng)絡輸出的均值方向（已歸一化），\(\kappa\) 是集中度參數(shù)。
對比學習：
- 從數(shù)據(jù)集 \(\mathcal{M}\) 中采樣一個 motion \(m\)。
- 從 \(m\) 中采樣兩個狀態(tài)作為 anchor \(s^a\) 和正樣本 \(s^+\)，從其他動作中采樣狀態(tài)作為負樣本 \(s^-\)。
- 計算它們的嵌入：\(z^a = \mu_\phi(s^a), z^+ = \mu_\phi(s^+), z^- = \mu_\phi(s^-)\)。
- 優(yōu)化 InfoNCE loss（關于為什么可以寫成 infoNCE loss，附錄有相關數(shù)學）：
  \[\mathcal{L}_{\text{InfoNCE}} = -\log \frac{\exp(\text{sim}(z^a, z^+)/T)}{\exp(\text{sim}(z^a, z^+)/T) + \sum_j \exp(\text{sim}(z^a, z_j^-)/T)} \]
  其中 \(\text{sim}(u, v) = u^\top v\)（余弦相似度），\(T = 1/\kappa\) 是溫度系數(shù)。

結(jié)果：預訓練后，同一動作的所有狀態(tài) \(s \in m\) 都有相同的嵌入方向 \(\mu_\phi(s) = z_m\)。

2.3 RGSD 階段二：并行 imitation learning 與 skill discovery

在階段一，我們只訓練了 encoder \(\mu_\phi\)，而沒有訓練策略。此階段，策略 \(\pi_\theta(a|s, z)\) 開始與環(huán)境交互并學習。

模仿和發(fā)現(xiàn)共享同一個 policy network，并且，共享同一個獎勵函數(shù)形式（即 DIAYN 的獎勵），但技能 \(z\) 的采樣方式不同。

技能 \(z\) 的采樣：
- 以概率 \(p\)（模仿）：采樣一個參考動作 \(m\)，計算其平均嵌入 \(z_m = \frac{1}{l} \sum_{s \in m} \mu_\phi(s)\)。讓策略執(zhí)行技能 \(z = z_m\)。
- 以概率 \(1-p\)（發(fā)現(xiàn)）：從標準正態(tài)分布采樣并歸一化，\(z = k / \|k\|, k \sim \mathcal{N}(0, I)\)。
計算 reward：
- 我們將預訓練的編碼器 \(q_\phi\) 凍結(jié)，記為 \(q_\phi\)。然后，初始化一個可訓練的發(fā)現(xiàn)編碼器 \(q'_\phi\)，其參數(shù)從 \(q_\phi\) 復制而來。
- reward 公式：\(r(s,z) = -\log p(z) + \log q_\phi(z | s) = C + \kappa\mu_\phi(s)^\top z\)
- 對于模仿任務，獎勵是當前狀態(tài) \(s\) 與目標技能 \(z_m\) 的相似度（通過凍結(jié)的、完美的編碼器 \(q_\phi\) 計算）。
- 對于發(fā)現(xiàn)任務，獎勵是標準的 DIAYN 獎勵，但編碼器 \(q'_\phi\) 是可訓練的。
編碼器更新：
- 模仿：通過最大化 \(\log q_\phi(z | s)\) 來學策略。
- 發(fā)現(xiàn)：為了防止 \(q'_\phi\) 在發(fā)現(xiàn)過程中破壞已學到的潛在空間，我們添加一個 KL 散度的 loss 項：\(\mathcal{L}_{\text{KL}} = \alpha \cdot \text{KL}(q'_\phi(\cdot|s) \| q_\phi(\cdot|s))\)。
策略更新：
- 使用 PPO 作為 RL 算法，最大化上述獎勵 \(r(s, z)\) 以及策略的熵，來更新策略 \(\pi_\theta\)。

2.4 這篇文章的 trick

To exploit this local concavity in practice, we apply early termination: whenever the agent deviates from the reference motion beyond a specified threshold measured by cartesian error, the episode is terminated. 為了在實踐中利用這種局部凹陷，我們應用了早期終止：每當智能體偏離參考運動超過笛卡爾誤差測量的指定閾值時，該情節(jié)就會終止。
we adopt reference state initialization (RSI), which samples initial states directly from the reference motions. RSI prevents the emergent of disjoint skill sets by ensuring that imitation and discovery operate over overlapping state distributions. 我們采用參考狀態(tài)初始化（RSI），直接從參考運動中對初始狀態(tài)進行采樣。RSI 通過確保模仿和發(fā)現(xiàn)在重疊的狀態(tài)分布上運行來防止不相交技能集的出現(xiàn)。
為了在發(fā)現(xiàn)過程中保護學習到的潛在空間，我們從凍結(jié)的 \(q_\phi\) 初始化一個單獨的編碼器 \(q'_\phi\)，并加一個最小化這兩個 q 之間的 KL 散度的 loss。
我們并行訓練發(fā)現(xiàn)和模仿，with a ratio parameter p，以概率 p 進行 imitation learning，1-p 進行 skill discovery，以便共享策略和價值函數(shù)能夠?qū)⒏弑Ｕ嫘袨榈闹R從模仿轉(zhuǎn)移到發(fā)現(xiàn)中。這兩個過程共享相同的獎勵函數(shù)和潛在空間形式，因此這些共享組件可以穩(wěn)定地優(yōu)化。
為確保訓練穩(wěn)定，所有方法都采用了提前終止條件：每當機器人摔倒時，該回合即終止。（LGSD 也是這樣的，使用這種方法把 metra 卡下去了）
在做實驗比較的時候，對于 CALM，由于它也包含運動編碼器，因此選擇能夠代表每個運動的正確潛在變量是直接的。對于沒有編碼器的方法，我們均勻地采樣 500 個潛在向量，選擇其中使笛卡爾誤差最小的一個，并使用這個向量重新評估以確保公平性。我們發(fā)現(xiàn) 500 個樣本是足夠的，因為進一步增加數(shù)量并沒有帶來明顯的改進。（感覺這樣做是好的、公平的；值得學習，實驗里比較公平的細節(jié)或許應該寫出來）

3 實驗

實驗 setting：

環(huán)境：Isaac Gym 中的 SMPL 人形機器人（69 維動作，359 維狀態(tài)）。
數(shù)據(jù)集：ACCAD 運動數(shù)據(jù)庫中的 20 個參考動作（走路、跑步、側(cè)步 sidestepping、后退、出拳等）。
評估指標：
- 模仿保真度：Cartesian 誤差（位置誤差）、FID 分數(shù)（運動自然度）。這兩個 metrics 的介紹可參考博客。
- 技能多樣性：能否發(fā)現(xiàn)與 reference 動作的新變種（如往不同方向走的 sidestepping）。
- 下游任務性能：如“sidestepping 到達目標”任務的成功率。

實驗結(jié)果：

模仿效果：RGSD 在多數(shù)任務上 Cartesian 誤差最低（如跑步誤差 7.7cm），表明能高保真復現(xiàn)參考動作。
技能發(fā)現(xiàn)：能生成語義相關的新技能（如不同方向的側(cè)步、多角度出拳），且 FID 分數(shù)穩(wěn)定，說明新技能既多樣又自然。
下游任務：在“側(cè)步到達目標”任務中，RGSD 成功率與 CALM 相當，但運動保真度更高（FID 34.3 vs. CALM 的 46.7）。

4 為什么 RGSD 不能與 metra 相結(jié)合（根據(jù)論文原文）

這部分對應論文 5.4 節(jié)和附錄 F。

核心原因：METRA 的獎勵機制與“重復性動作”存在根本性沖突，而這類動作是 RGSD 技能庫的重要組成部分。

具體來說，問題體現(xiàn)在以下三個層面：

獎勵計算失效：
- METRA 的獎勵是 \((\phi(s_{T}) - \phi(s_{0}))^{\top} z\)，它鼓勵 agent 在 latent space 中沿著技能方向 \(z\) 產(chǎn)生位移。
- 然而，對于重復性動作（如行走），一個周期結(jié)束后，智能體在局部坐標系下的姿態(tài) \(s_T\) 與起始姿態(tài) \(s_0\) 幾乎完全相同。
- 因此，\(\phi(s_{T}) \approx \phi(s_{0})\)，導致獎勵 \(\approx 0\)。這意味著，執(zhí)行一個完美的周期行為反而無法獲得任何獎勵，這與獎勵最大化的目標相悖。
狀態(tài)增強的副作用：
- 方案一：添加全局坐標。 在 agent 越跑越遠的情況下，這可以區(qū)分 \(s_0\) 和 \(s_T\)，但帶來了新問題：
  - 全局坐標是無界的，RGSD 聲稱 METRA 會輕易利用這一點：智能體只需學會向不同方向移動，就能最大化獎勵，而無需學習有意義的身體動作（如擺臂、邁腿）。
  - 這導致 latent space 被全局坐標主導，技能發(fā)現(xiàn)失敗。
- 方案二：添加時間變量，即當前的 timestep 值。這同樣能區(qū)分狀態(tài)，但同樣帶來新問題：
  - 時間變量會迫使 latent space 形成一個以時間為刻度的“等高線”結(jié)構。
  - 在探索時，RGSD 聲稱，agent 從一個時間步跳到下一個時間步，可能在潛在空間中產(chǎn)生巨大的、不連續(xù)的跳躍（例如，跨過“等高線”組成的山，從一側(cè)跳到另一側(cè)），這違反了 METRA 要求相鄰狀態(tài)潛在距離小于 1 的約束。
  - 最終，導致訓練變得極不穩(wěn)定。
與 RGSD 設計哲學的沖突：
- RGSD 的核心是預先構建一個穩(wěn)定、語義清晰的（超球面）潛在空間。
- 而 METRA 為了最大化技能差異，其學習過程會動態(tài)地、劇烈地改變潛在空間的結(jié)構（如附錄 F 圖 7 所示）。
- 這兩種 latent space 處理方式是相互矛盾的。因此，將 METRA 的探索機制強加于 RGSD 預結(jié)構化好的空間上，會破壞后者的語義基礎。

5 相關思考

（abstract 里的 manifold 這個詞，第一次見，比較新奇）
思考，encoder 設置成 \(z = \mu(s)\) 會不會沒那么好用，導致跑步時的各種姿勢都被映射到同一個 z 上，并且，各個 motion 可能會包含一些公共 state；會不會 \(z=\mu(s,s')\) 更好一些；
fig 4 用俯視圖的軌跡來說明 skill 的多樣性，這確實符合 skill discovery 工作的可視化的慣例。然而，它表現(xiàn)出多樣行為（如不同角度的轉(zhuǎn)彎）的 skill，所對應的 skill 都是同一個 \(z_m\)。因此，這好像跟狹義上的 skill discovery 的多樣性不太 match，即，它并不是不同 skill z 能生成不同的行為，不過在某種程度上，它確實學到了不同的行為。
如果在同一個 z 下，動作也是 diverse 的，這意味著什么？意味著（比如說）不同角度的轉(zhuǎn)彎，所對應的動作，都被映射到了同一個 embedding 下。思考，embedding 有這樣的性質(zhì)，要不因為 RGSD 的預訓練，訓出來就會這樣（畢竟有一個 KL 散度的 loss 約束 embedding 不能變太多），要不因為 RGSD 的 policy 不小心做出了不同角度的轉(zhuǎn)彎，\(phi'\) 為了讓 agent 的 reward 最大化，就也允許不同角度的轉(zhuǎn)彎了。
如果 RGSD 是真的，那么 RGSD 用 metra 不 work，或許是因為 metra 更注重結(jié)果（metra 這類方法，每一步的 reward 都是 \(\phi(s_T)-\phi(s_0)\) 裂項出來的），所以沒法學到原地打轉(zhuǎn) 過程性的技能。
合作者說這篇文章的理論都是對的，只不過假設一個 motion m 里的所有 state 映射到同一個 embedding \(\phi\)，這個假設有點奇怪。
（公式 6 7 求導得到的那個常數(shù) C 項，合作者有些懷疑正確性）

posted @ 2025-10-31 00:50 MoonOut 閱讀(47) 評論(0) 收藏舉報

刷新頁面返回頂部

月出兮彩云歸 ??