摘要:
馬爾可夫決策過程(Markov Decision Process, MDP)是強化學*問題的數學框架。MDP通過五元組 (S, A, P, R, γ) 來描述,其中: S: 狀態空間,表示所有可能狀態的集合。 A: 動作空間,表示智能體可以執行的所有動作的集合。 P: 狀態轉移概率矩陣,P(s'|s
閱讀全文
摘要:
策略網絡。它的作用是接收單個智能體的局部觀測,并輸出一個在當前狀態下應該采取各種動作的概率分布。智能體根據這個分布進行采樣,得到最終執行的動作。 輸入: 智能體 *i* 在時間步 *t* 的局部觀測。 輸出: 一個動作概率分布。對于離散動作空間,輸出是一個softmax概率向量;對于連續動作空間,通
閱讀全文
摘要:
深度學習是一種技術方法,大模型是這種方法的產物和應用,而強化學習是一種解決問題的框架(方法論和控制系統),它可以利用深度學習和大模型作為其強大的工具。 深度學習: 是一個復雜的、多層的“神經網絡”,能夠從海量數據(比如數百萬張游戲畫面)中學習并識別出復雜的模式(比如什么是“敵人”,什么是“獎勵”)。
閱讀全文