<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      State Distribution-aware Sampling for Deep Q-learning


      發表時間:2018(Neural Processing Letters 2019)
      文章要點:這篇文章認為之前的experience replay的方法比如PER沒有將transition的分布情況考慮在內,于是提出一個新的experience replay的方法,將occurrence frequencies of transitions和uncertainty of state-action values考慮在內。
      作者的出發點是,agent通常從一些初始狀態開始,所以離這些狀態越近的狀態肯定被探索的越多,這就導致buffer里的狀態是skew的,所以直接均勻采樣更像是occurrence frequencies-based sampling,對于出現少的狀態很少會更新對應的Q(s,a),這就會導致對經常出現的狀態更新過多,出現較少的狀態更新太少。所以作者用靜態哈希表將狀態聚類,然后根據類別和每類的樣本數定義采樣概率

      這里第一項就是完全的隨機采樣,第二項里k指k個類別,\(num_i\)表示樣本i所屬類別一共有多少個樣本。所以第二項里,如果某個類別里的樣本很多,那抽到里面某個樣本的可能性就小。下圖描述了采樣的區別,可以看到這種綜合加純隨機,同時也考慮了樣本分布的概率采樣會更加均勻

      不過最后效果看起來,沒有很大的提升

      總結:道理上是make sense的,但是結果看起來也不是很明顯。
      疑問:是不是其實sampling留給大家做的空間已經不大了啊,看了這么多文章,感覺提升都很小。

      posted @ 2024-02-24 01:04  initial_h  閱讀(55)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 狠狠色狠狠综合久久 | 精品超清无码视频在线观看| 色成年激情久久综合国产| 国产超碰无码最新上传| 丰满爆乳一区二区三区| 久久这里都是精品一区| 国产老女人免费观看黄A∨片 | 四虎永久播放地址免费| 2021亚洲国产精品无码| 亚洲成年av天堂动漫网站| 日本一道一区二区视频| 无码国产玉足脚交极品播放| 99热久久这里只有精品| 爱色精品视频一区二区| 天天弄天天模| 日韩精品一区二区亚洲专区| 精品无码国产污污污免费| 青青草无码免费一二三区| 久久一级精品久熟女人妻| 亚洲欧美成人a∨观看| 亚洲国产精品高清久久久 | 天堂va蜜桃一区二区三区| 南郑县| 国产极品粉嫩尤物一线天| 强奷乱码欧妇女中文字幕熟女| 无码抽搐高潮喷水流白浆| 起碰免费公开97在线视频| 亚洲人成在线观看网站不卡| 国产精品高清一区二区三区| 精品乱码一区二区三四区视频| 亚洲天堂一区二区三区四区| 中文 在线 日韩 亚洲 欧美| 国产精品一区在线蜜臀| 婷婷色香五月综合缴缴情香蕉| 国产精品SM捆绑调教视频| a级国产乱理伦片在线观看al| 人人妻人人澡人人爽欧美一区双 | 新密市| 丰满岳乱妇久久久| 日韩不卡手机视频在线观看| 综合人妻久久一区二区精品|