<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      GlenTt

      導(dǎo)航

      強化學(xué)習(xí)系統(tǒng)性學(xué)習(xí)筆記(二):策略優(yōu)化的理論基礎(chǔ)與算法實現(xiàn)

      策略優(yōu)化的理論基礎(chǔ)與算法實現(xiàn)

      3.2 REINFORCE: 最早的策略梯度算法

      在完成策略梯度定理的推導(dǎo)后,我們獲得了梯度的理論形式:

      \[\nabla_\theta J(\pi_\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (G_t - b(s_t))\right] \]

      然而,這個期望本身仍然無法直接計算。我們面臨的根本問題是:軌跡空間是高維甚至連續(xù)無限的,無法枚舉所有可能的 \((s_0, a_0, s_1, a_1, \dots)\) 組合。策略優(yōu)化的實踐核心在于用有限采樣近似期望:與環(huán)境交互收集 \(N\) 條軌跡 \(\{\tau_1, \dots, \tau_N\}\),然后用經(jīng)驗平均估計梯度:

      \[\nabla_\theta J(\pi_\theta) \approx \frac{1}{N}\sum_{i=1}^N \sum_{t=0}^{T_i} \nabla_\theta \log \pi_\theta(a_t^{(i)}|s_t^{(i)}) \cdot G_t^{(i)} \]

      這就是 REINFORCE 算法(Williams, 1992)的核心思想。其訓(xùn)練流程為:

      1. 用當(dāng)前策略 \(\pi_\theta\) 采樣 \(N\) 條完整軌跡
      2. 對每條軌跡計算累積回報 \(G_t = \sum_{t'=t}^T r_{t'}\)(從時刻 \(t\) 到終止)
      3. 可選地引入固定 baseline \(b(s_t)\)(如所有軌跡的平均回報)
      4. 計算梯度并更新參數(shù):\(\theta \leftarrow \theta + \alpha \hat{g}\)

      采樣帶來的根本挑戰(zhàn):方差問題

      我們真正想要的是策略的平均性能,但只能通過有限采樣來估計。這引入了兩個核心要求:

      • 無偏性(unbiased):采樣梯度的期望應(yīng)等于真實梯度
      • 低方差(low variance):不同采樣批次的梯度應(yīng)相近

      REINFORCE 滿足無偏性,但存在高方差問題。考慮一個簡單例子:

      示例:訓(xùn)練語言模型回答醫(yī)療問題。

      • Prompt: "如何緩解頭痛?"
      • Response 1(軌跡1): "多喝水,適當(dāng)休息,必要時服用布洛芬。" → 獎勵 \(R_1 = 0.9\)
      • Response 2(軌跡2): "頭痛可能由多種原因引起..." (啰嗦但正確) → 獎勵 \(R_2 = 0.6\)
      • Response 3(軌跡3): "建議立即手術(shù)治療。" (錯誤) → 獎勵 \(R_3 = -0.8\)

      即使這三條回復(fù)來自同一個策略,它們的回報差異巨大(\(0.9, 0.6, -0.8\))。用這些樣本計算的梯度會劇烈波動,導(dǎo)致:

      • 需要大量軌跡(如 \(N=1000\))才能得到穩(wěn)定估計
      • 訓(xùn)練過程緩慢且不穩(wěn)定
      • 對于長對話(如 \(T=100\) 輪),方差會指數(shù)級增長

      關(guān)鍵疑問:每次更新參數(shù)后策略就變了,那我是只用一條軌跡就更新嗎?

      回答:不是。REINFORCE 的標(biāo)準(zhǔn)做法是:

      1. 用當(dāng)前策略 \(\pi_\theta\) 采樣 \(N\) 條軌跡(如 \(N=64\))
      2. 用這 \(N\) 條軌跡的平均梯度更新參數(shù)一次
      3. 更新后策略變?yōu)?\(\pi_{\theta'}\),之前的 \(N\) 條軌跡全部作廢
      4. 重新用 \(\pi_{\theta'}\) 采樣新的 \(N\) 條軌跡,重復(fù)上述過程

      這就是 On-Policy 的含義:數(shù)據(jù)必須來自當(dāng)前策略,每次更新后舊數(shù)據(jù)失效,導(dǎo)致樣本效率極低。


      3.3 Actor-Critic

      REINFORCE 的高方差源于用 Monte Carlo 回報 \(G_t\)(需要完整軌跡)。如果能用一個學(xué)習(xí)出來的函數(shù)估計未來回報,就可以:

      • 降低方差(函數(shù)估計比單次采樣穩(wěn)定)
      • 支持單步更新(不需要等軌跡結(jié)束)

      這就是 Actor-Critic 框架的核心思想:引入 Critic 網(wǎng)絡(luò) \(V_\phi(s)\) 估計狀態(tài)價值,用它構(gòu)造低方差的優(yōu)勢函數(shù)。

      雙網(wǎng)絡(luò)架構(gòu)

      系統(tǒng)維護兩個神經(jīng)網(wǎng)絡(luò):

      • Actor \(\pi_\theta(a|s)\):策略網(wǎng)絡(luò),負責(zé)生成動作
      • Critic \(V_\phi(s)\):價值網(wǎng)絡(luò),評估狀態(tài)的好壞

      訓(xùn)練目標(biāo):

      1. Critic 的更新:學(xué)習(xí)預(yù)測真實回報

        \[\mathcal{L}_{\text{critic}} = \mathbb{E}\left[(V_\phi(s_t) - G_t)^2\right] \]

        其中 \(G_t\) 是實際觀察到的累積回報(監(jiān)督信號)。

      2. Actor 的更新:用 Critic 估計的優(yōu)勢調(diào)整策略

        \[\mathcal{L}_{\text{actor}} = -\mathbb{E}\left[\log \pi_\theta(a_t|s_t) \cdot A_t\right] \]

        其中優(yōu)勢函數(shù) \(A_t = G_t - V_\phi(s_t)\) 衡量動作相對于平均水平的好壞。

      關(guān)鍵實現(xiàn)細節(jié):計算優(yōu)勢時必須阻斷梯度:

      advantage = reward - value.detach()  # ? 阻斷梯度回傳
      

      這確保 Actor 的更新不會干擾 Critic 的學(xué)習(xí)目標(biāo)。

      單步更新的進階:TD 誤差

      在 Actor-Critic (AC) 框架中,我們可以使用 TD (Temporal Difference) 誤差 來替代傳統(tǒng)的 Monte Carlo 回報,從而實現(xiàn)單步更新。

      TD 優(yōu)勢的定義如下:

      \[A_t^{TD} = \delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t) \]

      與 Monte Carlo 方法對比:

      • Monte Carlo 優(yōu)勢 (\(A_t^{MC}\)):

        • 公式:\(A_t^{MC} = G_t - V(s_t)\)
        • 特點:需要運行完整個軌跡才能計算,是無偏估計,但通常具有很高的方差。
      • TD 優(yōu)勢 (\(A_t^{TD}\)):

        • 公式:\(A_t^{TD} = \delta_t\)
        • 特點:只需要一步(single-step transition)即可計算,方差較低,但是一個有偏估計(其準(zhǔn)確性依賴于價值函數(shù) \(V\) 的估計精度)。

      3.4 GAE (Generalized Advantage Estimation) 的推導(dǎo)

      1. 真實的優(yōu)勢函數(shù)

      我們首先定義一個理論上“真實”的優(yōu)勢函數(shù),它使用實際的未來回報 \(G_t\)

      \[A_t^{\text{true}} = G_t - V^\pi(s_t) \]

      我們的目標(biāo)是使用一系列的 TD 誤差 \(\delta\) 來構(gòu)造一個對這個“真優(yōu)勢”的良好估計。

      2. 基于 Bellman 方程的展開

      根據(jù) Bellman 遞推公式,任意時刻的回報 \(G_t\) 可以展開為:

      \[G_t = r_t + \gamma G_{t+1} \]

      將其代入真實優(yōu)勢的定義中:

      \[A_t^{\text{true}} = (r_t + \gamma G_{t+1}) - V(s_t) \]

      為了引入 TD 誤差 \(\delta_t\),我們在上式中同時加上和減去 \(\gamma V(s_{t+1})\)

      \[A_t^{\text{true}} = [r_t + \gamma V(s_{t+1}) - V(s_t)] + \gamma [G_{t+1} - V(s_{t+1})] \]

      觀察上式,我們可以發(fā)現(xiàn):

      • 第一個方括號內(nèi)的部分正好是 TD 誤差 \(\delta_t\)
      • 第二個方括號內(nèi)的部分是下一時刻的真實優(yōu)勢 \(A_{t+1}^{\text{true}}\)

      于是,我們得到了一個關(guān)于真實優(yōu)勢的遞歸關(guān)系:

      \[A_t^{\text{true}} = \delta_t + \gamma A_{t+1}^{\text{true}} \]

      3. 遞歸展開與關(guān)鍵結(jié)論

      將上述遞歸關(guān)系不斷展開,可以得到:

      \[A_t^{\text{true}} = \delta_t + \gamma\delta_{t+1} + \gamma^2\delta_{t+2} + \gamma^3\delta_{t+3} + \cdots \]

      關(guān)鍵結(jié)論:真實的優(yōu)勢函數(shù),等于所有未來 TD 誤差的折扣加權(quán)和。

      這個結(jié)論非常直觀:

      • \(\delta_t\) 代表當(dāng)前這一步?jīng)Q策帶來的“驚喜”或“估計誤差”。
      • \(\delta_{t+1}, \delta_{t+2}, \dots\) 代表未來每一步的誤差。
      • 折扣因子 \(\gamma\) 確保了越遙遠的未來,其誤差對當(dāng)前優(yōu)勢的影響越小。

      GAE 的核心思想:偏差-方差的權(quán)衡

      問題與動機

      雖然上述展開式在理論上很完美,但在實踐中存在兩個問題:

      1. 依賴完整軌跡:它依然需要未來所有的 \(\delta\) 值,這意味著必須等到整個回合(episode)結(jié)束后才能計算,這本質(zhì)上是 Monte Carlo 風(fēng)格的估計,方差很大。
      2. 誤差累積:我們不希望使用過長的序列,因為未來的不確定性高,價值函數(shù)的估計誤差會不斷累積。

      我們需要在“充分利用未來信息”和“抑制噪聲(降低方差)”之間找到一個平衡點。

      引入 \(\lambda\):偏差-方差的平衡因子

      GAE 的核心思想是引入一個衰減系數(shù) \(\lambda\) (通常取值在 0.9 到 0.99 之間),用它來控制未來 TD 誤差的權(quán)重。

      GAE 的定義:

      \[A_t^{GAE(\gamma,\lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l} \]

      • \(\gamma\):環(huán)境的獎勵折扣因子,反映了任務(wù)本身對未來的重視程度。
      • \(\lambda\):優(yōu)勢函數(shù)的折扣因子,是我們用來控制偏差-方差權(quán)衡的人為超參數(shù)。
      • \(\delta\):每一步的 TD 誤差。

      理解 \(\lambda\) 的作用

      • 當(dāng) \(\lambda = 0\) 時:
        \(A_t = \delta_t\)
        這等價于傳統(tǒng)的 TD(0) 誤差,只考慮一步信息。這種方法偏差最大,但方差最小。

      • 當(dāng) \(\lambda = 1\) 時:
        \(A_t = \sum_{l=0}^{\infty} \gamma^l \delta_{t+l} = G_t - V(s_t)\)
        這恢復(fù)了原始的展開式,等價于 Monte Carlo 方法。這種方法無偏,但方差最大。

      • 當(dāng) \(\lambda \in (0,1)\) 時:
        GAE 在 TD 和 Monte Carlo 之間進行插值。未來的 \(\delta\) 權(quán)重會以 \((\gamma\lambda)\) 的速率衰減,實現(xiàn)了在“看得多遠”與“抑制噪聲”之間的平滑過渡。


      GAE 的計算與實現(xiàn)

      上述求和公式可以轉(zhuǎn)化為一個高效的反向遞推形式,非常適合在代碼中實現(xiàn)。

      GAE 遞推公式:

      \[A_t^{GAE} = \delta_t + \gamma \lambda A_{t+1}^{GAE} \]

      這個計算過程類似于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中的反向傳播,我們從軌跡的末端開始,反向遍歷計算每一時刻的優(yōu)勢值。

      偽代碼示例:

      advantages = torch.zeros_like(rewards)
      gae = 0
      # 從后往前遍歷時間步
      for t in reversed(range(T)):
          # 1. 計算當(dāng)前步的 TD 誤差 delta
          delta = rewards[t] + gamma * values[t+1] - values[t]
          
          # 2. 使用遞推公式計算 gae
          gae = delta + gamma * lam * gae
          
          # 3. 存儲當(dāng)前步的優(yōu)勢值
          advantages[t] = gae
      

      注意:

      • 計算必須反向遍歷時間,因為 \(A_t\) 依賴于未來的 \(A_{t+1}\)
      • values[t+1] 是 Critic 網(wǎng)絡(luò)對下一狀態(tài)的價值預(yù)測。
      • 這個高效的計算方法是 PPO、A2C、A3C 等現(xiàn)代強化學(xué)習(xí)算法的標(biāo)準(zhǔn)組成部分。

      GAE 與 n-step TD 的關(guān)系

      GAE 還可以被看作是所有 n-step TD 優(yōu)勢估計 的指數(shù)加權(quán)平均:

      \[A_t^{GAE} = (1-\lambda) \sum_{n=1}^\infty (\lambda)^{n-1} A_t^{(n)} \]

      其中,n-step 優(yōu)勢 \(A_t^{(n)}\) 的定義為:

      \[A_t^{(n)} = \left(\sum_{l=0}^{n-1} \gamma^l r_{t+l}\right) + \gamma^n V(s_{t+n}) - V(s_t) \]

      總結(jié)來說:

      • \(\lambda\) 決定了我們將多少不同長度(n-step)的 TD 估計綜合在一起。
      • 較小的 \(\lambda\) 更側(cè)重于短期的、偏差較大的估計。
      • 較大的 \(\lambda\) 更側(cè)重于長期的、方差較大的估計。
      • 在實踐中,\(\lambda=0.95\) 通常是一個很好的經(jīng)驗?zāi)J值。

      3.5 On-Policy 的困境與重要性采樣

      樣本效率的致命弱點

      前述所有算法(REINFORCE, AC, A2C/A3C)都是 On-Policy:梯度計算要求數(shù)據(jù)來自當(dāng)前策略 \(\pi_\theta\)。這導(dǎo)致:

      • 每次更新后,\(\pi_\theta\) 改變,舊數(shù)據(jù)立即失效
      • 對于 LLM,生成一次回復(fù)需要數(shù)秒,但只能用一次就丟棄
      • 訓(xùn)練 100 萬步需要采樣 100 萬條新數(shù)據(jù)

      量化對比(以 Qwen-7B 為例):

      方法 單次采樣耗時 數(shù)據(jù)復(fù)用 訓(xùn)練 1000 步總耗時
      On-Policy 3 秒 1 次 3000 秒
      Off-Policy(PPO) 3 秒 4 次 750 秒

      重要性采樣:Off-Policy 的數(shù)學(xué)工具

      核心問題:能否用舊策略 \(\pi_{\text{old}}\) 的數(shù)據(jù)訓(xùn)練新策略 \(\pi_\theta\)?

      數(shù)學(xué)原理(重要性采樣定理):對于任意函數(shù) \(f(x)\),

      \[\mathbb{E}_{x \sim p(x)}[f(x)] = \mathbb{E}_{x \sim q(x)}\left[\frac{p(x)}{q(x)} f(x)\right] \]

      證明(簡單積分變換):

      \[\int p(x) f(x) dx = \int \frac{p(x)}{q(x)} q(x) f(x) dx = \mathbb{E}_{x \sim q}\left[\frac{p(x)}{q(x)} f(x)\right] \]

      應(yīng)用到策略梯度:
      原目標(biāo)是 \(\mathbb{E}_{a \sim \pi_\theta}[\nabla \log \pi_\theta \cdot A]\),但數(shù)據(jù)來自 \(\pi_{\text{old}}\),引入比率修正:

      \[\nabla_\theta J = \mathbb{E}_{a \sim \pi_{\text{old}}}\left[\frac{\pi_\theta(a|s)}{\pi_{\text{old}}(a|s)} \nabla \log \pi_\theta(a|s) \cdot A(s,a)\right] \]

      進一步簡化(利用 \(\nabla \log \pi = \pi^{-1} \nabla \pi\)),可將目標(biāo)函數(shù)寫為:

      \[J(\theta) = \mathbb{E}_{\tau \sim \pi_{\text{old}}}\left[\frac{\pi_\theta(a|s)}{\pi_{\text{old}}(a|s)} A(s,a)\right] \]

      醫(yī)療問答示例:

      • 舊策略生成:"多喝水,休息"(概率 \(\pi_{\text{old}} = 0.3\))
      • 新策略評估該回復(fù):\(\pi_\theta = 0.5\)(更傾向此回答)
      • 優(yōu)勢 \(A = 0.8\)(好回答)
      • 修正后的梯度貢獻:\(\frac{0.5}{0.3} \times 0.8 = 1.33\)

      關(guān)鍵挑戰(zhàn):如果比率 \(r = \frac{\pi_\theta}{\pi_{\text{old}}}\) 過大(如 10),說明新舊策略差異巨大,重要性采樣失效,梯度估計方差爆炸。需要約束策略更新幅度


      3.6 TRPO: 信賴域約束下的策略優(yōu)化

      優(yōu)化目標(biāo)的理論保證

      TRPO(Schulman et al., 2015)的核心思想:在限制策略變化的前提下最大化性能提升。

      優(yōu)化問題:

      \[\max_\theta \mathbb{E}_{s,a \sim \pi_{\text{old}}}\left[\frac{\pi_\theta(a|s)}{\pi_{\text{old}}(a|s)} A(s,a)\right] \quad \text{s.t.} \quad \mathbb{E}_s[\text{KL}(\pi_{\text{old}}(\cdot|s) || \pi_\theta(\cdot|s))] \leq \delta \]

      KL 散度約束衡量兩個分布的差異:

      \[\text{KL}(p || q) = \sum_x p(x) \log \frac{p(x)}{q(x)} = \mathbb{E}_{x \sim p}\left[\log \frac{p(x)}{q(x)}\right] \]

      直觀理解:

      • 目標(biāo)函數(shù):最大化性能(用舊數(shù)據(jù)評估新策略)
      • 約束條件:KL 散度 \(\leq \delta\)(如 0.01),確保新策略不偏離太遠

      醫(yī)療問答示例:

      • 舊策略分布:P("多喝水")=0.3, P("休息")=0.4, P("吃藥")=0.3
      • 新策略分布:P("多喝水")=0.5, P("休息")=0.35, P("吃藥")=0.15

      計算 KL 散度:

      \[\text{KL} = 0.3\log\frac{0.3}{0.5} + 0.4\log\frac{0.4}{0.35} + 0.3\log\frac{0.3}{0.15} \approx 0.09 \]

      如果 \(\delta=0.05\),則該更新違反約束,需要縮小更新步長。

      實現(xiàn)方法:二階優(yōu)化

      TRPO 用共軛梯度法求解帶約束的優(yōu)化問題,需要計算 Hessian 矩陣(目標(biāo)函數(shù)的二階導(dǎo)數(shù))。雖然理論保證強(單調(diào)改進),但計算復(fù)雜度高,實現(xiàn)困難,調(diào)參敏感。


      3.7 PPO

      PPO(Schulman et al., 2017)用一階優(yōu)化 + 巧妙的目標(biāo)函數(shù)設(shè)計達到 TRPO 的效果,成為深度 RL 和 RLHF 的標(biāo)準(zhǔn)算法。

      3.7.1 PPO-Clip: 用裁剪替代 KL 約束

      核心思想:不顯式約束 KL 散度,而是直接限制比率 \(r_t = \frac{\pi_\theta(a|s)}{\pi_{\text{old}}(a|s)}\) 的變化范圍。

      目標(biāo)函數(shù):

      \[L^{CLIP}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t\right)\right] \]

      其中 \(\text{clip}(r, 1-\epsilon, 1+\epsilon)\)\(r\) 限制在 \([1-\epsilon, 1+\epsilon]\)(通常 \(\epsilon=0.2\))。

      逐項分析:

      情況 1: 優(yōu)勢 \(A_t > 0\)(好動作,希望增加概率)

      • 如果 \(r_t < 1+\epsilon\):正常梯度,繼續(xù)增加 \(\pi_\theta(a|s)\)
      • 如果 \(r_t > 1+\epsilon\):被裁剪為 \(1+\epsilon\),停止增加(防止過度優(yōu)化)

      情況 2: 優(yōu)勢 \(A_t < 0\)(壞動作,希望減少概率)

      • 如果 \(r_t > 1-\epsilon\):正常梯度,繼續(xù)減少 \(\pi_\theta(a|s)\)
      • 如果 \(r_t < 1-\epsilon\):被裁剪為 \(1-\epsilon\),停止減少(防止過度懲罰)

      醫(yī)療問答示例(具體計算):

      • Prompt: "如何緩解頭痛?"
      • Response: "多喝水,適當(dāng)休息"
      • 舊策略: \(\pi_{\text{old}}(response|prompt) = 0.01\)(log prob = -4.6)
      • 新策略: \(\pi_{\theta}(response|prompt) = 0.03\)(log prob = -3.5)
      • 優(yōu)勢: \(A = 0.8\)(好回答)
      • 比率: \(r = \frac{0.03}{0.01} = 3.0\)

      PPO 處理(設(shè) \(\epsilon=0.2\)):

      原始項: r * A = 3.0 * 0.8 = 2.4
      裁剪項: clip(3.0, 0.8, 1.2) * A = 1.2 * 0.8 = 0.96
      最終: min(2.4, 0.96) = 0.96  ← 被裁剪!
      

      解讀:雖然新策略概率增加了 3 倍,但 PPO 只允許增加到 1.2 倍的幅度,防止策略突變

      3.7.2 PPO-KL: 自適應(yīng)懲罰

      另一種變體直接在目標(biāo)中加入 KL 懲罰:

      \[L^{KL}(\theta) = \mathbb{E}\left[\frac{\pi_\theta(a|s)}{\pi_{\text{old}}(a|s)} A(s,a)\right] - \beta \cdot \mathbb{E}_s[\text{KL}(\pi_{\text{old}} || \pi_\theta)] \]

      自適應(yīng) \(\beta\):

      • 如果 \(\text{KL} > 1.5 \times \text{target}\):增大 \(\beta\)(加強懲罰)
      • 如果 \(\text{KL} < 0.5 \times \text{target}\):減小 \(\beta\)(放松約束)

      實踐中 PPO-Clip 更常用,因為無需調(diào)節(jié) \(\beta\)

      3.7.3 PPO-Clip 完整訓(xùn)練流程

      關(guān)鍵特性:數(shù)據(jù)復(fù)用 \(K\) 次(\(K=4 \sim 10\))

      for iteration in range(總迭代次數(shù)):
          # 1. 采樣階段(執(zhí)行 1 次)
          用當(dāng)前策略 π_θ 采樣 N 條軌跡
          記錄 old_log_probs = log π_θ(a|s)  # 保存!
          
          # 2. 計算優(yōu)勢(用 GAE)
          用 Critic 估計 V(s)
          計算 advantages = GAE(rewards, values)
          
          # 3. 多輪 mini-batch 更新(數(shù)據(jù)復(fù)用 K 次)
          for epoch in range(K):  # K=4
              for batch in minibatch(trajectories):
                  # 重新計算新策略概率
                  new_log_probs = log π_θ(a|s)  # 策略已更新!
                  
                  # 計算比率
                  ratio = exp(new_log_probs - old_log_probs)
                  
                  # PPO-Clip loss
                  loss_clip = -min(ratio * A, clip(ratio, 1-ε, 1+ε) * A)
                  
                  # 價值函數(shù) loss
                  loss_vf = (V(s) - returns)2
                  
                  # 總損失
                  loss = loss_clip + c_vf * loss_vf
                  
                  # 梯度更新
                  optimizer.step()
      

      關(guān)鍵點:

      • old_log_probs\(K\) 輪更新中保持不變(來自采樣時的策略)
      • new_log_probs 每次都重新計算(因為參數(shù)在變)
      • 數(shù)據(jù)復(fù)用 4 次后,重新采樣新數(shù)據(jù)

      參加參數(shù)設(shè)置
      image
      image

      posted on 2025-10-07 11:54  GRITJW  閱讀(166)  評論(0)    收藏  舉報

      主站蜘蛛池模板: 国产高跟黑色丝袜在线| 美女黄18以下禁止观看| 黑人异族巨大巨大巨粗| 亚洲第一无码AV无码专区| 国产成人一区二区三区免费| 国产专区一线二线三线码| 无码激情亚洲一区| 成熟女人特级毛片www免费| 在国产线视频A在线视频| 国产永久免费高清在线观看| 国产在线观看网址不卡一区| 国产精品福利自产拍在线观看 | 天天躁久久躁日日躁| 亚洲欧洲成人a∨在线| 国产精品自拍实拍在线看| 亚洲av一本二本三本| 婷婷五月综合丁香在线| 推油少妇久久99久久99久久| 精品久久久bbbb人妻| 国产精品自拍一二三四区| 国产精品人成视频免费播放| 国产喷水1区2区3区咪咪爱AV| 精品国产乱来一区二区三区| 99在线视频免费观看| 艳妇臀荡乳欲伦交换在线播放| 风韵丰满妇啪啪区老老熟女杏吧 | 熟女系列丰满熟妇AV| 漂亮的保姆hd完整版免费韩国| 91色老久久精品偷偷性色| 99精品国产综合久久久久五月天| 水蜜桃av导航| 亚洲国产精品第一区二区| 中文字幕无线码在线观看| 九色综合狠狠综合久久| 国产精品午夜福利视频| 国产精品午夜福利资源| 国产精品制服丝袜第一页| 九九综合va免费看| 欧美成人www免费全部网站| 昌都县| 97久久综合亚洲色hezyo|