摘要:
背景 看Sutton的Reinforcement learning: An introduction,里面將策略迭代作為一種基于動(dòng)態(tài)規(guī)劃的方法。 書中舉了個(gè)grid world的例子,非常符合書中的數(shù)學(xué)原理,有狀態(tài)轉(zhuǎn)移概率,每個(gè)時(shí)間步就是每個(gè)state等..... 動(dòng)態(tài)規(guī)劃作為一個(gè)常見的面試八股,經(jīng) 閱讀全文
posted @ 2024-11-20 02:28
Tyler77
閱讀(242)
評(píng)論(0)
推薦(0)

浙公網(wǎng)安備 33010602011771號(hào)