<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update


      發(fā)表時(shí)間:2019 (NeurIPS 2019)
      文章要點(diǎn):這篇文章提出Episodic Backward Update (EBU)算法,采樣一整條軌跡,然后從后往前依次更新做experience replay,這種方法對(duì)稀疏和延遲回報(bào)的環(huán)境有很好的效果(allows sparse and delayed rewards to propagate directly through all transitions of the sampled episode.)。
      作者的觀點(diǎn)是
      (1) We have a low chance of sampling a transition with a reward for its sparsity.
      (2) there is no point in updating values of one-step transitions with zero rewards if the values of future transitions with nonzero rewards have not been updated yet.
      作者的解決方法是
      (1) by sampling transitions in an episodic manner.
      (2) by updating the values of transitions in a backward manner
      為了打破數(shù)據(jù)的相關(guān)性緩解overestimation,作者采用了一個(gè)diffusion factor \(\beta\)來做trade off。這個(gè)參數(shù)會(huì)在最新的估計(jì)和之前的估計(jì)之間做加權(quán),take a weighted sum of the new backpropagated value and the pre-existing value estimate
      算法偽代碼如下

      最后作者用多個(gè)learner設(shè)置不同的diffusion factor來學(xué)習(xí),最終選一個(gè)來輸出動(dòng)作。We generate K learner networks with different diffusion factors, and a single actor to output a policy. For each episode, the single actor selects one of the learner networks in a regular sequence.這些learner的參數(shù)隔一段時(shí)間同步一次。
      最終看起來有一定效果

      總結(jié):感覺依次更新問題應(yīng)該不少啊,可能trick有點(diǎn)多。另外作者強(qiáng)調(diào)achieves the same mean and median human normalized performance of DQN by using only 5% and 10% of samples,有點(diǎn)牽強(qiáng)了。明顯看出來訓(xùn)練一樣多的step,很多游戲提升也不大

      疑問:里面這個(gè)diffusion factor好像也不能打亂數(shù)據(jù)之間的相關(guān)性吧,不知道會(huì)不會(huì)有問題。

      posted @ 2024-02-11 02:46  initial_h  閱讀(49)  評(píng)論(0)    收藏  舉報(bào)
      主站蜘蛛池模板: 日韩精品一区二区亚洲专区| 国产综合亚洲区在线观看| 亚洲乱码精品久久久久..| 国产免费踩踏调教视频| 久久婷婷综合色丁香五月| 亚洲精品一区二区三区大| 久久精品熟女亚洲av艳妇| 欧美性色黄大片www喷水| 无码av最新无码av专区| 亚洲热线99精品视频| 国产亚洲精品AA片在线爽| 欧美交a欧美精品喷水| 377人体粉嫩噜噜噜| 久久久久夜夜夜精品国产| 国产av中文字幕精品| 人人澡人人透人人爽| 亚洲国产精品无码久久电影| 国产老头多毛Gay老年男| 色天天天综合网色天天| 精品无码人妻一区二区三区 | 久久天天躁夜夜躁狠狠85| 强开少妇嫩苞又嫩又紧九色| 男女猛烈激情xx00免费视频| 虎白女粉嫩尤物福利视频| 国产中文字幕在线精品| 久久精品国产99久久久古代| 国内自拍视频在线一区| 日本高清一区免费中文视频| 国产一级二级三级毛片| аⅴ天堂中文在线网| 国产精品福利片在线观看| 国产成年码av片在线观看| 亚洲国产精品日韩av专区| 国产精品乱人伦一区二区| 中文字幕日韩国产精品| 亚洲av片在线免费观看| 中文字幕第一页国产精品| 亚洲午夜福利网在线观看| 成人av天堂网在线观看| 中文字幕国产精品二区| 久久99国产乱子伦精品免费|