<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization and Non-Uniform Sampling


      發表時間:2020(ICML 2020)
      文章要點:這篇文章基于SAC做簡單并且有效的改進來提升效果。作者首先認為SAC里面的entropy是為了解決action saturation due to the bounded nature of the action spaces,這個意思就是說動作空間假如約束到[0-1],動作通常會在0和1兩個端點處,而加了entropy可以很好緩解這個問題。然后作者提出了一個streamlined algorithm with a simple normalization scheme or with inverted gradients,可以在沒有entropy的情況下達到SAC一樣的效果。接著又提出了一個新的experience replay方法來重點采recent的樣本(ERE),整個算法叫做Streamlined Off Policy with Emphasizing Recent Experience。
      對于Bounded Action Spaces,通常的做法是用clip

      或者是用tanh作為最后一層,然后再放縮

      DDPG和TD3用的前者,SAC用的后者。作者想說,這兩種方式都會有可能造成動作太接近兩個端點值,并且由于tanh,如果網絡輸出的μ一開始比較大的話,其實很難再回到一個合理的范圍內

      作者把這個問題叫做squashing exploration problem。作者提出了一個簡單的方法來緩解這個問題,就是對輸出的均值\(\mu\)先做歸一化

      另一個改進是Inverting Gradients,就是不去歸一化均值,而是在計算梯度的時候根據均值的量級來調整梯度大小

      最后一個改進就是Emphasizing Recent Experience,大致思路就是在采batch的時候,第一個batch從所有樣本里采,后面的batch的采樣范圍逐漸縮小到最近的樣本

      看起來效果都很一般

      總結:拼湊的痕跡挺重的,而且感覺就沒有啥提升,不知道為啥就能中。
      疑問:ERE里面假設會采樣很多個mini-batch,但是同時不是每個step就采一個batch更新嗎,從偽代碼里看的話應該是每個episode更新一下,而不是每個step更新。

      posted @ 2023-08-12 08:00  initial_h  閱讀(64)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 在线天堂最新版资源| 亚洲成人av在线高清| 黄频在线播放观看免费| 精品一区二区免费不卡| 久久婷婷五月综合色丁香花| 国产精品天干天干综合网| 国产伦精品一区二区三区免费迷 | 夜鲁鲁鲁夜夜综合视频欧美| 国产精品综合av一区二区国产馆| 亚洲国产一成人久久精品| 国内精品久久黄色三级乱| AV最新高清无码专区| 国产裸体无遮挡免费精品| 日本一区二区三区内射| 性视频一区| 久久国产精品第一区二区| 欧美日本精品一本二本三区| 国产AV影片麻豆精品传媒| 在线亚洲午夜片av大片| 国产成人精品日本亚洲专区6 | 久热色精品在线观看视频| 在线一区二区中文字幕| 国产福利精品一区二区| 成人网站av亚洲国产| 久久综合激情网| 国产成人精品区一区二区| www插插插无码视频网站| 日韩精品中文字幕一线不卡| 国产成人A在线视频免费| 国产一级精品毛片基地| 高清无码18| 深夜免费av在线观看| 亚洲男女羞羞无遮挡久久丫| 国产日韩精品中文字幕| 久久国产热这里只有精品| 婷婷综合亚洲| 久久综合九色综合97伊人| 亚洲av综合色区无码专区| A毛片终身免费观看网站| 精品一区二区三区四区激情| 亚洲人成色777777老人头|