<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      論文速讀記錄 | 2025.05




      Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learning

      • url:https://www.sciencedirect.com/science/article/pii/S0950705124014588
      • open review:https://openreview.net/forum?id=kCcIYc98ho
      • 來源:偶然得知的文章。
      • 主要內(nèi)容:
        • 這篇文章最初投稿在 ICLR 2024,6 6 5 reject,后來于 2025 年 1 月發(fā)表在 Knowledge-Based Systems 期刊,不太了解這個期刊。
        • 主要 method:提出了 MCP(Mixing corrupted preferences)方法,用于應對 PbRL 里的 noisy preference label,其中 noisy label 從 B-Pref 的模型里生成。
        • MCP 貌似是 mixup 方法在 PbRL 里的直接應用,具體是把兩個 query \((\sigma_0, \sigma_1, p), (\sigma_0', \sigma_1', p')\) 進行線性組合,得到兩個新的假 query:\([\lambda\sigma_0 + (1-\lambda)\sigma_0', ~ \lambda\sigma_1 +(1-\lambda)\sigma_1', ~ \lambda p + (1-\lambda)p']\) 和另一個對稱生成的 query,其中 \(\lambda\sim\text{Beta}(\beta,\beta)\),我也不懂 beta 分布,貌似 λ 會是 0 1 之間的值,且比較貼近 0 或 1。
        • 這篇文章希望通過這樣的方式,讓 reward model 在每個 preference 數(shù)據(jù)點的鄰域周圍,都有一定泛化性。

      XSkill: Cross Embodiment Skill Discovery

      • arxiv:https://arxiv.org/abs/2307.09955
      • website:https://xskill.cs.columbia.edu/
      • open review:https://openreview.net/forum?id=8L6pHd9aS6w
      • GitHub:https://github.com/real-stanford/xskill
      • 來源:[mask]
      • 主要內(nèi)容:
        • 這是一篇 CoRL 2023 的論文,關(guān)注 robotics 方向。
        • 這篇論文提出了 XSkill(cross embodiment skill discovery)方法,包含非常吸引人的框架:
          • 可以通過對齊 human 和 robot 的動作,從 human 的軌跡中學到可重用的技能(skill),比如開門 開燈 拉抽屜;
          • 然后,讓 robot 學會這些技能;
          • 最后,對于一個新 task,我們只需要給一條 human 軌跡,就可以通過先識別其中的 skill,再讓 robot 進行規(guī)劃、執(zhí)行 skill,這樣 one-shot 學會新 task。
        • 主要 setting:可用的數(shù)據(jù)集有 ① human expert demo 的軌跡數(shù)據(jù)集,② robot 遙操作軌跡數(shù)據(jù)集。這兩個數(shù)據(jù)集都是未分割和未對齊的。

      XSkill 分為三個階段:discover、transfer 和 compose。

      ① discover:

      • 首先,對于 human demo 和 robot demo 數(shù)據(jù)集里的視頻,我們使用一個長度為 L 的滑動窗口,從窗口里均勻采樣 M 幀,構(gòu)成 frame 序列,并輸入到一個 encoder \(f_\text{temporal}\) 里,得到 embedding \(z_{ij}\)。這個 encoder 由 3 層 CNN + transformer 組成,需要從頭開始訓練,而不是預訓練的。
      • 然后,把學到的 embedding \(z_{ij}\) 映射到一組 skill \(\{c_k\}_{k=1}^K\) 里,skill 的數(shù)量 K 是預定義的超參數(shù)。為了訓練 \(f_\text{temporal}\),將 frame 序列隨機裁剪 旋轉(zhuǎn) 或加噪聲,做數(shù)據(jù)增強,然后讓增強前后的 embedding 映射到 \(c_k\) 的概率分布 \(p_{ij}\) 盡可能相似。具體的,對于兩個從同一個 frame 序列變換得到的 embedding,其中一個概率分布是用一個 線性層 + softmax 得到的,而另一個是通過 Sinkhorn-Knopp 聚類方法得到的(我并不懂這個聚類方法)。
      • 為了讓不同 embodiment 共享相同的 skill space,XSkill 使用 data sampling 和 entropy regularization 和 Sinkhorn-Knopp 聚類等神秘技術(shù),對齊不同 embodiment 的 embedding space。(這一塊沒看懂)
      • time contrastive learning:XSkill 假設(shè)處于長度為 \(w_p\) 的時間窗口內(nèi)的兩個 frame 序列,它們的 embedding 映射到 skill 空間的概率分布 \(p_{ij}\) 應該盡可能相似,而處于長度 \(w_n\) 的時間窗口外兩個 frame 序列的 \(p_{ij}\) 應該盡可能不相似,從而構(gòu)造了 InfoNCE loss。

      ② transfer:

      • 用 imitation learning 學一個 diffusion policy \(p(\boldsymbol{a_t} | s_t,z_t)\),其中 \(\boldsymbol{a_t}\) 是長度為 L 的動作序列,\(z_t\) 是得到的 embedding,而狀態(tài) \(s_t\) 包含機器人本體感覺和 visual observation。
      • 這個 imitation learning 應該直接在 robot demo 軌跡數(shù)據(jù)集上學。

      ③ compose:

      • 在 compose 階段,我們得到一條新 task 的 human demo 軌跡,需要 ① 從里面分出 skill,② 操作機器人完成各個 skill。
      • 在 discover 步驟訓練的 線性層 + softmax skill 分類器,可以用來從 human 新軌跡中提取出 task 序列 \(\tilde z\)
      • 為了避免 robot 執(zhí)行某個 skil 失敗,但是 robot 仍然按照 skill 序列繼續(xù)執(zhí)行,導致后續(xù)操作都失敗的問題,(以及 robot 無意中完成了某些后續(xù) skill,但 robot 不知道自己完成了,仍然按照 skill 序列繼續(xù)執(zhí)行,從而浪費時間的問題),這篇文章使用一個 skill alignment transformer \(\phi(z_t | o_t,\tilde z)\),它根據(jù)目前的 observation 輸出下一個應該執(zhí)行的 skill,使用 robot demo 軌跡數(shù)據(jù)集訓練。

      (Sinkhorn-Knopp 聚類方法:

      • 給定一個 embedding space,Sinkhorn-Knopp 聚類方法將所有點分為 K 類,每一類的樣本數(shù)量相同。
      • 它能同時學到 1. K 個聚類中心的位置,2. 所有點的分類概率。
      • 它的核心思想是求解一個最優(yōu)傳輸矩陣,通過一個比喻來理解:把每個聚類中心比作工廠位置,每個 embedding 點比作一個商品,embedding 離聚類中心的距離比作商品運往工廠的距離。
      • 參考博客:https://zhuanlan.zhihu.com/p/10971105566

      Task Transfer by Preference-Based Cost Learning

      • arxiv:https://arxiv.org/abs/1805.04686
      • 來源:[mask]
      • 主要內(nèi)容:
        • 這是一篇 AAAI 2019 的文章,關(guān)注如何使用 human preference 來做 RL 的 transfer learning。
          • 這篇文章的 preference 形式,不是成對比較 \((\sigma_0, \sigma_1, p)\),而是給定一批軌跡或 (s,a),挑出一個或幾個好的。
          • 并且,這篇文章用 cost 來代替 reward,希望最小化 cost,這與最大化 reward 等價。
          • 核心創(chuàng)新點:① 引入 preference 來學 transfer RL 的 cost function,② 改進了 adversarial MaxEnt IRL。
        • 什么是 transfer learning:
          • 我們有一些 source task 上的數(shù)據(jù),需要訓練一個完成 target task 的策略。
        • (deepseek 總結(jié)的)故事:
          • 在任務遷移(Task Transfer)中,我們有一個“基礎(chǔ)任務”(比如讓機器人往任意方向移動)的專家演示樣本(軌跡集合 \(B_i\)),但我們想學會一個“目標任務”(比如讓機器人只向前移動)。問題在于:
          • ① 我們沒有目標任務的精確專家演示(只有基礎(chǔ)任務的)。
          • ② 我們也不知道目標任務的具體成本函數(shù) \(c_{tar}\)(只知道基礎(chǔ)任務的 \(c_i\))。
          • 解決方案:用專家偏好當“篩子”。想象你有一堆基礎(chǔ)任務演示(各種方向的移動軌跡),像一堆混合的豆子。你的目標是只留下“向前移動”的豆子(目標任務相關(guān)的軌跡)。但你自己不會分豆子(不知道 \(c_{tar}\))。怎么辦呢?你請了一位懂行的專家(知道什么是“向前移動”),每次給專家看一小把豆子(軌跡樣本),讓他把最接近目標任務的豆子(最偏好的軌跡)挑出來。

      01 MaxEnt IRL

      • Inverse RL(逆強化學習):給定一些專家軌跡,希望學出一個 cost function,使得專家軌跡的 cost 最小。
      • MaxEnt IRL:它最大化策略 \(p(\tau)\) 的熵,同時保證策略的 cost 與 expert 策略 \(p_E(\tau)\) 的 cost 一致。優(yōu)化問題如下:

      \[\begin{align*} \max_{\theta} \quad & -\sum_{\tau} p(\tau) \log p(\tau) \\ \text{s.t.} \quad & \mathbb{E}_{p(\tau)}[C_{\theta}(\tau_i)] = \mathbb{E}_{p_{E}(\tau)}[C_{\theta}(\tau_i)], \tau_i \in B, \\ & \sum_{i} p(\tau_i) = 1, \quad p(\tau_i) \geq 0. \end{align*} \]

      • 可以推導出,最優(yōu) \(p(\tau)\) 是 cost \(- C_\theta(\tau)\) 的玻爾茲曼分布,即 \(p(\tau) = \frac1Z \exp(- C_\theta(\tau))\)

      02 Adversarial MaxEnt IRL

      • 如果最優(yōu) \(p(\tau) = \frac1Z \exp(- C_\theta(\tau))\),問題可以轉(zhuǎn)化成,用 expert 軌跡數(shù)據(jù)集 \(B\) 上的最大似然估計,求解最優(yōu) \(\theta\),即 \(max_\theta \mathbb E_{\tau\sim B} [\log p(\tau)]\)
      • 這個最大似然估計可以變成一個 GAN 的形式,其中 discriminator 的形式為

      \[D(\tau) = \frac{p(\tau)}{p(\tau) + G(\tau)} = \frac{\frac{1}{Z} \exp(-C(\tau))}{\frac{1}{Z} \exp(-C(\tau)) + G(\tau)} \]

      • 個人理解,discriminator 試圖從真數(shù)據(jù)(\(p(\tau)\))和假數(shù)據(jù)(\(G(\tau)\))中分辨真數(shù)據(jù),這對應了 \(D(\tau)\) 分母和分子。
      • 模型訓練到最優(yōu)時,generator G 將會訓成 \(p(\tau) = \frac{1}{Z} \exp(-C(\tau))\),即完全訓成生成專家軌跡的分布。
      • 似乎 GAN 方法有理論保證,以前并不知道。

      03 神秘 preference cost 方法

      • 論文把給定一批 trajectory,選擇其中專家滿意的 trajectory 的過程,看作拒絕抽樣。
      • 對于基礎(chǔ)任務樣本集 \(B_i\) 中的每一條軌跡 \(\tau\),它被專家“接受”(選中留下來)的概率 \(p_{sel}(\tau)\) 是多少?
        • 作者提出了一個核心假設(shè):這個概率應該和 \(\tau\) 在目標任務下的“好”程度成正比,同時反比于它在當前基礎(chǔ)任務下的“好”程度(因為當前任務可能產(chǎn)生很多與目標無關(guān)的軌跡)。
        • 感覺這個假設(shè),是為了后面的結(jié)論湊出來的。
      • 用成本函數(shù)解釋“好”程度:在強化學習中,“好”通常意味著成本低(或獎勵高)。假設(shè)基礎(chǔ)任務的真實成本是 \(C_i(\tau)\),目標任務的真實成本是 \(C_{tar}(\tau)\)。因此,軌跡 \(\tau\) 被專家接受的概率可以建模為:

      \[p_{sel}(\tau) \propto \exp(-C_{tar}(\tau) + C_i(\tau)) \]

      • 其中,\(\exp(-C_{tar}(\tau))\):代表 \tau 在目標任務下的“好”程度(成本越低,指數(shù)值越大)。\(\exp(C_i(\tau))\):代表 \tau 在當前基礎(chǔ)任務下的“普遍”程度。
      • 定義 \(C_h(\tau) = C_{tar}(\tau) - C_i(\tau)\),稱之為 Hidden Cost (隱形成本) 軌跡。
        • \(C_h(\tau)\) 衡量了軌跡 \(\tau\) 從當前基礎(chǔ)任務遷移到目標任務需要付出的額外代價。值越大,說明這條軌跡離目標任務要求越遠。
        • 代入后,接受概率變?yōu)椋?span id="w0obha2h00" class="math inline">\(p_{sel}(\tau) \propto \exp(-C_h(\tau))\)
      • 假設(shè)基礎(chǔ)任務樣本集 \(B_i\) 的軌跡分布是 \(p_i(\tau)\),經(jīng)過專家按照 \(p_{sel}(\tau) \propto \exp(-C_h(\tau)) = \exp(-(C_{tar}(\tau) - C_i(\tau)))\) 篩選后,保留下來的新樣本集 \(B_{i+1}\) 的分布 \(p_{i+1}(\tau)\) 會是什么?
        • 一條軌跡 \tau 能留在新集合中的概率 = 它原本在 \(B_i\) 中的概率 \(p_i(\tau)\) * 它被專家選中的概率 \(p_{sel}(\tau)\),即
        • \(p_{i+1}(\tau) \propto p_i(\tau) * p_{sel}(\tau) \propto p_i(\tau) * \exp(-(C_{tar}(\tau) - C_i(\tau)))\)
        • 根據(jù) MaxEnt IRL 的假設(shè),\(p_i(\tau) \propto \exp(-C_i(\tau))\)(基礎(chǔ)任務的軌跡服從玻爾茲曼分布)。
        • 代入:\(p_{i+1}(\tau) \propto \exp(-C_i(\tau)) * \exp(-(C_{tar}(\tau) - C_i(\tau))) = \exp(-C_{tar}(\tau))\)
      • 核心結(jié)論:\(p_{i+1}(\tau) \propto \exp(-C_{tar}(\tau))\)
      • 即,經(jīng)過這次專家偏好篩選,保留下來樣本的分布 \(p_{i+1}(\tau)\) 直接變成了目標任務軌跡的理想分布。

      04 基于 (s,a) pair 的 Adversarial MaxEnt IRL

      • 作者聲稱,Adversarial MaxEnt IRL 難以得到 cost function \(c(s,a)\),如果魔改一下,讓 generator 生成 action,discriminator 分辨 (s,a) pair 是否是真的,則可以解決這個問題。
      • 把 discriminator 的形式修改成基于 (s,a) pair 的:

      \[D(\tau) = \frac{\frac{1}{Z} \exp(-c(s,a))}{\frac{1}{Z} \exp(-c(s,a)) + G(s,a)} \]

      • 可以由上式推出一個 \(\tilde c(s, a)\),相比 cost \(c(s, a)\) 只差一個常數(shù):

      \[\begin{aligned} \tilde c(s, a) & = \log(1 - D(s, a)) - \log D(s, a) - \log G(s, a) \\ & = c(s, a) + \log Z \end{aligned} \]

      • 總之,這種生成 (s,a) pair 的方法,也能得到最優(yōu)軌跡,論文有證明。

      實驗:

      • 實驗主要比的 baseline 是 GAIL(Generative Adversarial Imitation Learning)。
        • GAIL 貌似是一種基于 GAN 思想的 imitation learning 方法。
        • Discriminator 負責區(qū)分真假樣本,用 cross-entropy loss 來學。
        • Generator 是一個策略 \(\pi(a|s)\),用 RL 來學,reward 是 \(r(s, a) = log(D(s, a)) - log(1 - D(s, a))\)
        • 這篇文章推出來的 reward 是 \(- [\log(1 - D(s, a)) - \log D(s, a) - \log G(s, a)]\),多了一項。\(\log G(s, a)\) 其實是策略 \(G(s, a)\) 的熵,所以 reward 相當于鼓勵最大化策略的熵。
      • 實驗跟 MAML 比了,但 MAML 是 1. 學一個最好的參數(shù)初始點,2. 讓參數(shù)快速學到新任務,不知道第 1 步在這篇文章是怎么做的。

      Transfer Learning in Deep Reinforcement Learning: A Survey

      以下是對強化學習(RL)中遷移學習(Transfer Learning)的總結(jié),按方法分類梳理核心思路與關(guān)鍵工作:

      ?? 1 獎勵塑形(Reward Shaping)

      核心思想:通過外部知識修改獎勵函數(shù),引導智能體學習更高效。
      關(guān)鍵工作

      • PBRS(Potential-Based Reward Shaping)
        基于狀態(tài)的靜態(tài)勢函數(shù)(Potential Function)生成附加獎勵:F = γΦ(s') - Φ(s),保證策略不變性。
      • PBA(Potential-Based Advice)
        擴展勢函數(shù)到狀態(tài)-動作空間:F = γΦ(s',a') - Φ(s,a),需在線學習。
      • DPBA(Dynamic Value Function Advice)
        動態(tài)學習勢函數(shù)(作為額外Q函數(shù)),允許任意外部知識(如專家策略)轉(zhuǎn)化為獎勵。

      應用場景:機器人控制、對話系統(tǒng)(如激勵符合人類期望的行為)。

      ?? 2 從演示中學習(Learning from Demonstrations, LfD)

      (上一篇 preference-based transfer learning 就是這種思想。)

      核心思想:利用專家演示數(shù)據(jù)(如人類操作記錄)加速探索。
      關(guān)鍵工作

      • DQfD(Deep Q-Learning from Demonstrations)
        在經(jīng)驗池中混合演示數(shù)據(jù)和自生成數(shù)據(jù),優(yōu)先采樣專家數(shù)據(jù)。
      • GAIL(Generative Adversarial Imitation Learning)
        通過對抗訓練匹配專家分布:判別器區(qū)分專家與智能體行為,生成器模仿專家。
      • SAIL(Self-Adaptive Imitation Learning)
        逐步用高質(zhì)量自生成軌跡替代次優(yōu)演示,解決非完美專家問題。

      挑戰(zhàn):演示數(shù)據(jù)有限、覆蓋狀態(tài)不全(需引入熵正則化鼓勵探索)。

      ?? 3 策略遷移(Policy Transfer)

      核心思想:直接復用或蒸餾源策略到目標域。
      關(guān)鍵方法

      • 策略蒸餾(Policy Distillation)
        將多個教師策略的知識壓縮到單一學生策略(如最小化策略間KL散度)。
      • Distral算法
        多任務策略共享一個中心策略,通過熵正則化平衡模仿與探索。
      • 策略復用(Policy Reuse)
        動態(tài)組合多個源策略(如按性能加權(quán)選擇),需評估策略在目標域的期望收益。

      優(yōu)勢:適用于多教師策略遷移(如不同機器人共享技能)。

      ?? 4 任務間映射(Inter-Task Mapping)

      核心思想:學習源域與目標域的狀態(tài)/動作/動態(tài)映射函數(shù)
      關(guān)鍵工作

      • 狀態(tài)映射
        將源域狀態(tài)映射到目標域(如機器人形態(tài)不同但任務相似)。
      • UMA(無監(jiān)督流形對齊)
        自動對齊跨域軌跡,生成目標域“偽專家軌跡”指導學習。
      • 動態(tài)映射
        學習轉(zhuǎn)移動態(tài)的潛在表示(如 <s,a,s'> 三元組的隱空間對齊)。

      應用:迷宮導航等低維空間任務,需領(lǐng)域間存在結(jié)構(gòu)相似性。

      ?? 5 表示遷移(Representation Transfer)

      核心思想:遷移共享的潛在表示(如解耦狀態(tài)、獎勵、動態(tài))。
      關(guān)鍵方法

      • 漸進網(wǎng)絡(luò)(Progressive Networks)
        凍結(jié)舊任務網(wǎng)絡(luò)參數(shù),逐步擴展新列(Column)并復用舊特征。
      • 后繼表示(Successor Representations, SR)
        將狀態(tài)價值分解為后繼狀態(tài)分布(與任務無關(guān))獎勵映射(任務相關(guān)),實現(xiàn)快速適應新獎勵。
      • 通用價值函數(shù)(UVFA)
        解耦狀態(tài)與目標(Goal),同一網(wǎng)絡(luò)處理多目標任務(如迷宮導航到不同終點)。

      優(yōu)勢:支持零樣本遷移(如目標變化無需重新訓練)。

      ?? 總結(jié)對比:

      方法 核心知識形式 適用場景
      獎勵塑形 修改后的獎勵函數(shù) 需外部引導(如專家規(guī)則)
      從演示中學習 專家軌跡數(shù)據(jù) 模仿學習、稀疏獎勵任務
      策略遷移 源策略參數(shù) 多教師策略復用
      任務間映射 跨域映射函數(shù) 領(lǐng)域間存在顯式對應關(guān)系
      表示遷移 解耦的潛在表示 多任務學習、跨目標泛化

      關(guān)鍵挑戰(zhàn):領(lǐng)域差異過大、次優(yōu)知識利用、評估指標統(tǒng)一(如泛化性 vs 最終性能)。
      當前研究趨勢是多方法融合(如獎勵塑形 + 演示學習)和魯棒表示學習


      posted @ 2025-05-02 17:47  MoonOut  閱讀(134)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产成人剧情AV麻豆果冻| 欧美熟妇乱子伦XX视频| 成人天堂资源www在线| 九九热免费在线观看视频| 国产蜜臀久久av一区二区| 亚洲另类激情专区小说图片 | 国产超级va在线观看视频| 国产影片AV级毛片特别刺激| 免费国产高清在线精品一区| 野外做受三级视频| 欧美疯狂xxxxbbbb喷潮| 九九热免费精品在线视频| 中文字幕日韩国产精品| 亚洲国产欧美不卡在线观看| 久久婷婷五月综合色和啪| 久久精品不卡一区二区| 工布江达县| 亚洲国产成人久久77| 日韩精品成人网页视频在线| 久久99精品久久久久久9| 国产无遮挡无码视频在线观看| 国产成人A在线视频免费| 亚洲AV成人片不卡无码| 国产91精品一区二区亚洲| 欧洲亚洲精品免费二区| 国产麻花豆剧传媒精品mv在线| 日本xxxx色视频在线播放| 宝贝腿开大点我添添公视频免| 国产成人精品日本亚洲直播| 亚洲人成人网站色www| 亚洲女人天堂| 中文字幕有码日韩精品| 欧美人与zoxxxx另类| 久久精品国产亚洲夜色AV网站| 中文国产成人精品久久不卡 | 高潮毛片无遮挡高清视频播放| 亚洲人妻系列中文字幕| 国产色婷婷亚洲99精品小说| 国产一区二区日韩在线| 无码h片在线观看网站| www久久只有这里有精品|