<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Large Language Models Are Semi-Parametric Reinforcement Learning Agents


      發表時間: 2023 (NeurIPS 2023)
      文章要點: 文章提出一個evolvable LLM-based agent框架REMEMBERER,主要思路是給大模型加一個experience memory存儲過去的經驗,然后用Q-learning的方式計算Q值,再根據任務相似度采樣軌跡和對應的Q值作為prompt指導LLM進一步選取動作和環境交互。這里的Semi-Parametric Reinforcement Learning就指的experience memory可以用RL來計算Q值,evolvable就指的prompt可以通過這種交互的方式不斷演化。作者把這種更新方式叫做Reinforcement Learning with Experience Memory (RLEM)。并聲稱這種外部memory存儲的方式可以利用不同任務的經驗,而且可以達到長期記憶的效果。下面這個示意圖有點太冗余了,主要區別就是memory合成一個了。

      然后具體方法很簡單,LLM和環境交互得到觀測和獎勵,存到memory里面,

      其實還應該有reward,圖3里面沒有強調。然后用貝爾曼最優公式更新Q值

      如果來了一個新的(任務-狀態-動作)對,那就直接賦值為Q,

      否則就加權更新

      實際中Q的計算用的是Monte Carlo return。
      然后使用軌跡的時候,結合任務相似度和觀測相似度設計一個度量指標

      針對每個不同的任務設計了不同的相似度計算方式,然后采樣m條最相思的軌跡作為prompt。整個方法就結束了。
      總結:很簡單的方法,也make sense。
      不過有種LLM套RL殼子的感覺。比如實驗的兩個環境WebShop和WikiHow最大步長都是5,其實太短了。而且WebShop沒有中間reward,所有這個Q其實并不能stitch。而且memory的存儲方式看起來RL并沒有用網絡擬合,只是一個Q table,很難利用RL的policy improvement和泛化能力。總得來說,主要就是記住了之前的軌跡的獎勵,RL其實大概率沒影響。
      然后相似度的設計要具體任務具體設計,就不太通用了。
      疑問:無。

      posted @ 2024-04-24 13:48  initial_h  閱讀(187)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲夂夂婷婷色拍ww47| 欧美老熟妇乱子伦牲交视频| 国产美女精品自在线拍免费| 青草国产超碰人人添人人碱| 男女xx00上下抽搐动态图| 国产精品女生自拍第一区| 成人拍拍拍无遮挡免费视频| 永善县| 美日韩在线视频一区二区三区| 四虎影视久久久免费| 国产永久免费高清在线| 人妻聚色窝窝人体WWW一区 | 免费久久人人爽人人爽AV| 视频一区视频二区中文字幕| 亚洲精品国产suv一区88| 国产偷国产偷亚洲高清日韩| 日夜啪啪一区二区三区| 精品欧美h无遮挡在线看中文| 麻豆一区二区三区精品视频| 国产午夜伦伦午夜伦无码| 亚洲精品成a人在线观看| 日韩av综合中文字幕| 扒开女人内裤猛进猛出免费视频 | 国产免费网站看v片元遮挡| 国产欧美VA天堂在线观看视频| a级免费视频| 久久精品亚洲成在人线av麻豆 | 久久影院午夜伦手机不四虎卡| 久久久久噜噜噜亚洲熟女综合| 午夜国人精品av免费看| 高清美女视频一区二区三区| 在线播放深夜精品三级| 狠狠色狠狠色综合久久蜜芽| 九九热在线免费视频精品| 成人福利一区二区视频在线| 色99久久久久高潮综合影院| 西昌市| 在线a级毛片无码免费真人| 乱码中文字幕| 日韩有码中文字幕av| 亚洲另类在线制服丝袜国产|