<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Large Batch Experience Replay


      發(fā)表時(shí)間:2021(ICML 2022)
      文章要點(diǎn):這篇文章把experience replay看做一個(gè)通過(guò)importance sampling來(lái)估計(jì)梯度的問(wèn)題,從理論上推導(dǎo)經(jīng)驗(yàn)回放的最優(yōu)采樣分布,然后提出LaBER (Large Batch Experience Replay)算法來(lái)近似這個(gè)采樣分布。
      非均勻采樣mini batch可以看成一個(gè)基于replay buffer的importance sampling的問(wèn)題,梯度估計(jì)的方差越小,收斂就會(huì)越快。PER就可以看做這樣一個(gè)算法(PER is a special case of such approximations in the context of ADP, and propose better sampling schemes)。
      作者首先推導(dǎo),更新Q的梯度為

      所以這里的關(guān)鍵就是G,作者推出來(lái)最大化收斂速度其實(shí)就是要最小化一個(gè)和G相關(guān)的期望項(xiàng),最后就成了一個(gè)和Q的梯度有關(guān)的一個(gè)權(quán)重

      PER有效的原因其實(shí)就可以認(rèn)為TD error其實(shí)就是一個(gè)和Q的梯度有關(guān)的權(quán)重

      PER里面有幾個(gè)近似,一個(gè)是用TD error來(lái)近似最優(yōu)采樣分布里的Q的梯度,另一個(gè)是PER的估計(jì)是outdated,只有樣本被采到的時(shí)候才會(huì)更新,這樣來(lái)看PER的方差是沒(méi)有被控制住的。于是作者提出兩個(gè)改進(jìn)Gradient Experience Replay(GER),直接用Q的梯度的范數(shù)作為權(quán)重,不過(guò)這個(gè)梯度也是outdated的

      另一個(gè)改進(jìn)是Large Batch Experience Replay(LaBER),先采樣一個(gè)大的batch,計(jì)算importance sampling,再down sample成一個(gè)方差最小的mini batch來(lái)近似最優(yōu)采樣分布。這個(gè)時(shí)候的梯度估計(jì)就是最新的


      有了batch之后,更新的加權(quán)作者也試了幾種,
      直接歸一化

      用大batch的mean歸一化

      不歸一化,直接全部放到learning rate里

      用最大權(quán)重來(lái)歸一化

      從效果上看,mean要好些。最后效果如下,

      總結(jié):看起來(lái)在某些環(huán)境上是有效果的。作者開源了代碼,可以試試。
      疑問(wèn):無(wú)。

      posted @ 2024-02-17 00:50  initial_h  閱讀(50)  評(píng)論(0)    收藏  舉報(bào)
      主站蜘蛛池模板: 无码国内精品人妻少妇| 精品不卡一区二区三区| 无码国产偷倩在线播放| 中文字幕一区二区人妻| 人妻av资源先锋影音av资源| 91福利视频一区二区| 国产l精品国产亚洲区| 日本三线免费视频观看| 强奷乱码欧妇女中文字幕熟女| 少妇高潮尖叫黑人激情在线| 亚洲性日韩精品一区二区三区| 狠狠躁夜夜躁人人爽天天5| 亚洲丶国产丶欧美一区二区三区| 人人妻人人狠人人爽| 欧美人与动欧交视频| 无码人妻精品一区二区三区下载| 暖暖 免费 高清 日本 在线观看5 色老头亚洲成人免费影院 | 日韩中文字幕人妻一区| 久久99精品久久久久麻豆| 九色综合久99久久精品| 日韩有码中文在线观看| 中文字幕久久国产精品| 国产精品日韩av在线播放| 无码成人一区二区三区| 中文字幕人妻有码久视频| 亚洲肥老太bbw中国熟女| 国产一区二区三区自拍视频| 国产精品中文一区二区| 国产精品老熟女免费视频| 亚洲人成电影网站 久久影视| 九九热视频在线观看精品| 下面一进一出好爽视频| 综合人妻久久一区二区精品| 国产高清自产拍AV在线| 国产一区二区三区禁18| 国产视频一区二区三区视频| 天堂在/线中文在线资源 官网| 国产日韩AV免费无码一区二区三区 | 国产成人剧情AV麻豆果冻| AI做受???高潮AAAA视频| 人妻聚色窝窝人体WWW一区|