強化學習網絡
策略網絡。它的作用是接收單個智能體的局部觀測,并輸出一個在當前狀態下應該采取各種動作的概率分布。智能體根據這個分布進行采樣,得到最終執行的動作。
-
輸入: 智能體 *i* 在時間步 *t* 的局部觀測。
-
輸出: 一個動作概率分布。對于離散動作空間,輸出是一個softmax概率向量;對于連續動作空間,通常輸出一個高斯分布的均值和方差。
價值網絡。它的作用是評估在某個全局狀態下,所有智能體遵循當前聯合策略所能獲得的期望累積回報。這個評估值用于指導策略網絡的更新方向。
-
輸入: 時間步 *t* 的全局狀態。這是MAPPO“集中式訓練”的關鍵所在。這個狀態信息包含了所有智能體的相關信息,在訓練時是可獲得的(例如從模擬器中)。
-
輸出: 一個標量值,代表了從當前全局狀態開始,未來能獲得的總回報的期望值。
訓練階段:
-
環境交互: 每個智能體用自己的策略網絡,根據局部觀測選擇動作,形成聯合動作。環境轉到下一狀態,并給出全局獎勵。
-
存儲經驗: 將經驗元組
(全局狀態, 所有智能體的局部觀測, 所有智能體的動作, 全局獎勵, 下一全局狀態)存入一個共享的回放緩沖區。 -
網絡更新:
-
更新價值網絡: 從緩沖區采樣一批數據。價值網絡根據
全局狀態預測價值,然后通過最小化其預測值與實際回報之間的誤差來更新(優化預測出來的價值)。 -
更新策略網絡: 同樣采樣一批數據。對于每個智能體,使用價值網絡計算出的優勢函數來評估其動作的好壞。然后使用PPO的裁剪目標函數來更新策略網絡,增加帶來正優勢的動作的概率,降低帶來負優勢的動作的概率。PPO的裁剪機制確保了更新的穩定性。(優化狀態轉移矩陣)
-
執行階段:
-
只需要策略網絡。每個智能體像訓練時一樣,根據自身的局部觀測,通過策略網絡輸出動作并執行。價值網絡在此階段不再需要。


浙公網安備 33010602011771號