<output id="qn6qe"></output>

<output id="qn6qe"><tt id="qn6qe"></tt></output>

<strike id="qn6qe"></strike>

亚洲日本欧洲欧美视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

<kbd id="mwzzd"></kbd>

<style id="mwzzd"></style>

強化學習中五大要素(核心概念)

強化學習的標準框架是馬爾可夫決策過程（MDP），它由五個基本元素構成(不可或缺的部分)：狀態（S）、動作（A）、狀態轉移（P）、獎勵（R）和折扣因子（γ）。

狀態（S）：描述了環境是什么樣子。
動作（A）：智能體可以做什么。
狀態轉移（P）：環境如何響應動作。
獎勵（R）：定義了“好”與“壞”，是智能體唯一的學習目標。
折扣因子（γ）：權衡即時獎勵和未來獎勵的重要性。

優勢函數A(s, a)

優勢函數定義為動作價值函數 Q(s, a) 與狀態價值函數 V(s) 的差值：

A(s, a) = Q(s, a) - V(s)

2. 它直觀地表達了什么？

優勢函數衡量的是，在狀態 s 下，選擇某個特定動作 a，相對于按照當前策略 π 的“平均”表現來說，是好還是壞，以及好/壞多少。

A(s, a) > 0：意味著在這個狀態下，選擇動作 a 比“平均動作”要好。這是一個優勢動作。
A(s, a) = 0：意味著動作 a 的表現和平均水準一樣。
A(s, a) < 0：意味著動作 a 的表現比平均水準要差。這是一個劣勢動作。

3. 為什么需要它？（它的好處）

想象一下玩游戲：

V(s) 告訴你當前局面（狀態）的優劣。比如，血量多、位置好，V(s) 就高。
Q(s, a) 告訴你如果做出某個具體操作（動作）后的局面優劣。比如，你按下了“攻擊”鍵，Q(s, attack) 會預估按下后的結果。

核心好處：優勢函數降低了狀態本身固有價值帶來的方差。它讓智能體更專注于學習動作之間的相對好壞，而不是狀態的絕對價值。這使得策略梯度等算法的訓練更加穩定和高效。

V(s) 由價值網絡預估得出

廣義優勢估計

1. 問題所在：優勢函數是未知的

在真實環境中，我們無法直接知道 Q(s, a) 和 V(s) 的精確值，我們只能通過采樣（與環境交互）來估計它們。GAE 就是一種高效、低方差地估計優勢函數 A(s, a) 的方法。

2. GAE 的核心思想：結合蒙特卡洛和時序差分

估計價值有兩種常見方法：

蒙特卡洛：使用一次交互軌跡的實際回報 G? 來估計。無偏（準確），但高方差（不穩定）。
時序差分：使用當前的估計 r? + γV(s???) 來估計。有偏（不準確），但低方差（穩定）。

GAE 巧妙地將這兩種思想結合起來，通過引入一個參數 λ，在偏差和方差之間做了一個可調節的權衡。

3. GAE 是如何工作的？

GAE 定義了一個 k 步優勢估計的指數加權平均。

1步優勢估計： δ? = r? + γV(s???) - V(s?)
- 這個 δ? 也叫 TD誤差。它本身就是一個最樸素的優勢估計，只看了一步的獎勵和下一個狀態的價值。
2步優勢估計： δ? + γλδ???
- 不僅看下一步，還多看一步，并用 λ 來調節下一步的重要性。
3步優勢估計： δ? + γλδ??? + (γλ)2δ???
...
一直到無窮步（即蒙特卡洛方法）。

GAE 最終將這些所有步數的估計加權求和，得到一個平滑的優勢估計值。

GAE的公式為：
A?^GAE(γ, λ) = Σ (γλ)^l δ??l （從 l=0 到 ∞ 求和）

4. 參數 λ 的意義

λ 是一個在 [0, 1] 之間的超參數，它控制了估計的“視野”和“平滑度”。

λ → 1：GAE 更傾向于使用更多步的回報，估計更接近蒙特卡洛方法。
- 優點：偏差更小，更準確。
- 缺點：方差更高，更不穩定。
λ → 0：GAE 更傾向于只使用1步的 TD 誤差。
- 優點：方差更低，更穩定。
- 缺點：偏差更大，因為只依賴價值函數 V 的估計，如果 V 不準，A 也不準。

通俗理解 λ：它就像一個“信任度”旋鈕。你有多信任你學到的價值函數 V？

如果 V 學得很好，你可以把 λ 調小一點，依賴 V 來做快速、低方差的估計。
如果 V 學得不好，你應該把 λ 調大一點，更多地依賴實際采樣得到的數據，雖然這會更“吵鬧”。

5. GAE(λ) 的前向定義

6. 關鍵問題：反向計算

7. 反向計算算法

8. 優點與直覺

Clip 函數

在普通的策略梯度中，我們根據優勢函數A(s, a)

PPO 的想法是：我們可以相信優勢函數A(s, a)

概率比 (Probability Ratio)

Clipped Surrogate Objective（裁剪替代目標）-------策略網絡的損失函數

價值網絡損失函數

價值網絡

"Epoch" 機制

在傳統的策略梯度方法（如REINFORCE或A2C）中，我們通常：

收集一批數據（軌跡）
用這批數據計算梯度，進行一次策略更新
丟棄這批數據，用更新后的策略重新收集新數據

這種方法樣本效率很低，因為每批數據只使用一次就被丟棄了。

PPO 的想法是：既然收集數據（與環境交互）是昂貴的，為什么我們不充分利用每一批數據呢？

因此，PPO 的做法是：

使用當前策略
將這批數據保存起來，在接下來的
經過

理論根源	直接來自優勢函數的定義：
實際意義	價值網絡學習的目標是估計動作價值

posted @ 2025-10-09 11:06 wangssd 閱讀(115) 評論(0) 收藏舉報

刷新頁面返回頂部

主站蜘蛛池模板：精品一区二区中文字幕| 国产亚洲精品久久久久久久久| 欧美成人精品手机在线| 国产综合视频一区二区三区| 天美传媒mv免费观看完整| 中文熟妇人妻av在线| 人妻中文字幕av资源站| 久久人人97超碰爱香蕉| 亚洲精品免费一二三区| 91精品国产免费人成网站| 九九在线精品国产| 麻花传媒在线观看免费| 亚洲国产日韩一区三区| 免费人成在线观看网站| 最近中文字幕日韩有码| 夜爽8888视频在线观看| 夜爽8888视频在线观看| 亚洲国产精品日韩专区av| 亚洲人成网线在线播放VA| 国产性天天综合网| 成年无码av片在线蜜芽| 亚洲成av人片色午夜乱码| 国产伦精品一区二区三区妓女| 67194熟妇在线观看线路| 亚洲国产一区二区三区最新| 久久精品国产99国产精品澳门| 西西人体44www大胆无码| 免费可以在线看a∨网站| 少妇高潮水多太爽了动态图| 美女扒开尿口让男人桶| 中文字幕国产原创国产| 亚洲最大成人av在线天堂网| 亚洲男人第一无码av网| 亚洲国产成人午夜在线一区| 精品国产一区二区三区久久女人| 一级做a爰片在线播放| 毛葺葺老太做受视频| 亚洲成人精品综合在线| 欧美成人精精品一区二区三区| 九九热在线观看视频精品| 色欲国产精品一区成人精品|

<p id="ddwzc"><li id="ddwzc"><progress id="ddwzc"></progress></li></p>

<cite id="ddwzc"></cite>