馬爾可夫決策過程/貝爾曼方程 理解
核心性質:
馬爾可夫性:
一個隨機過程在給定現在狀態和所有歷史狀態的情況下,其未來狀態的條件概率分布僅依賴于當前狀態。即未來的轉移和過去是獨立的,只取決于現在。
馬爾可夫決策過程 是順序決策問題的數學模型,用于在隨機性和不確定性的環境中模擬智能體的決策過程。
簡單來說,它描述了一個場景:一個“智能體”在一個“環境”中,通過執行“動作”來在不同“狀態”之間轉換,從而獲得“獎勵”。它的目標是學習一個最佳策略,以最大化長期獲得的總獎勵。
一個MDP通常由五個元素構成:
-
S (狀態集合):環境所有可能情況的集合。例如,在國際象棋中,就是所有棋盤布局;在機器人導航中,就是所有可能的位置。
-
A (動作集合):智能體在每個狀態下可以執行的所有可能動作的集合。例如,機器人可以“前進”、“后退”、“左轉”、“右轉”。
-
P (狀態轉移概率):
P(s’| s, a)。這是一個概率函數。它表示在狀態s下執行動作a后,環境轉換到新狀態 s’ 的概率。這體現了環境的隨機性。例如,機器人命令“前進”,但由于地面打滑,它有90%的概率成功前進,10%的概率滑到左邊。 -
R (獎勵函數):
R(s, a, s’)。這是一個標量函數。它表示在狀態s執行動作a并到達新狀態s’后,智能體從環境中獲得的即時獎勵。獎勵是智能體學習的“指南針”,正獎勵是“鼓勵”,負獎勵是“懲罰”。例如,機器人到達目標點獲得+100獎勵,撞到墻獲得-10獎勵,每走一步消耗能量獲得-1獎勵。 -
γ (折扣因子):一個介于0和1之間的數。它決定了我們對未來獎勵的重視程度。
-
γ 接近 0:意味著智能體是“短視的”,只關心眼前利益。
-
γ 接近 1:意味著智能體是“有遠見的”,會非常重視未來的長期回報。
-
貝爾曼方程:
一個狀態(或狀態-動作對)的價值,等于其即時獎勵加上所有未來狀態的折扣價值。

貝爾曼方程是當前狀態和未來狀態的迭代關系,表示當前狀態的價值函數可以通過下個狀態的價值函數進行計算。貝爾曼方程因其提出者、動態規劃創始人理查德-貝爾曼,而又被叫做動態規劃方程。

浙公網安備 33010602011771號