国产成人亚洲欧美二区综合,亚洲av鲁丝一区二区三区黄,国产一区二区高清不卡

2024年8月6日

For SALE: State-Action Representation Learning for Deep Reinforcement Learning

摘要：發(fā)表時間：2023(NeurIPS 2023) 文章要點：這篇文章提出，在強化學習里，對于特征向量表示的任務(wù)（low-level states），而不是圖像表示的任務(wù)（image-based tasks），做表征學習也是有必要的。作者認為一個任務(wù)的困難在于底層的dynamic，而不是狀態(tài)空間的大小，閱讀全文

posted @ 2024-08-06 01:17 initial_h 閱讀(292) 評論(0) 推薦(0)

2024年6月11日

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

摘要：發(fā)表時間：2024(ICLR2024) 文章要點：文章提出用預(yù)訓練的視覺語言模型作為zero-shot的reward model（VLM-RMs）。好處在于可以通過自然語言來給定一個具體的任務(wù)，通過VLM-RMs讓強化學習基于reward學習這個任務(wù)（using pretrained vision 閱讀全文

posted @ 2024-06-11 11:15 initial_h 閱讀(261) 評論(0) 推薦(0)

2024年5月23日

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

摘要：發(fā)表時間：2024 文章要點：文章對LLM增強強化學習（LLM-enhanced RL）的現(xiàn)有文獻進行了總結(jié)。在agent-environment交互的范式下，討論LLM對RL算法的幫助。文章先給出LLM-enhanced RL的概念：the methods that utilize the mu 閱讀全文

posted @ 2024-05-23 13:38 initial_h 閱讀(848) 評論(0) 推薦(0)

2024年5月13日

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

摘要：發(fā)表時間：2024(ICLR 2024) 文章要點：文章提出Retroformer,用策略梯度的方式調(diào)優(yōu)prompt，更好的利用環(huán)境的reward。大體思路是學習一個retrospective LLM，將之前的軌跡和得分作為輸入，得到一個新的prompt，這個prompt綜合分析了之前的經(jīng)驗，從而提閱讀全文

posted @ 2024-05-13 23:56 initial_h 閱讀(208) 評論(0) 推薦(0)

2024年5月4日

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

摘要：發(fā)表時間：2023(ICLR 2023) 文章要點：文章提出一個簡單有效的ReAct框架，將reasoning和action結(jié)合，在交互式的環(huán)境上進行測試，取得了很好的效果。其中reasoning作為推理模塊，幫助模型歸納，跟蹤和更新動作規(guī)劃，acting和環(huán)境交互收集更多信息（reasoning 閱讀全文

posted @ 2024-05-04 23:05 initial_h 閱讀(654) 評論(2) 推薦(0)

2024年4月30日

Reflexion: Language Agents with Verbal Reinforcement Learning

摘要：發(fā)表時間：2023(NeurIPS 2023) 文章要點：文章提出Reflexion框架，通過交互的方式獲得反饋，并變成細致的語言feedback的形式作為下一輪的prompt，以此強化language agents的能力，同時避免了更新大模型的參數(shù)。這樣的好處有1）輕量，不需要finetune L 閱讀全文

posted @ 2024-04-30 11:24 initial_h 閱讀(755) 評論(0) 推薦(0)

2024年4月24日

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

摘要：發(fā)表時間： 2023 (NeurIPS 2023) 文章要點：文章提出一個evolvable LLM-based agent框架REMEMBERER，主要思路是給大模型加一個experience memory存儲過去的經(jīng)驗，然后用Q-learning的方式計算Q值，再根據(jù)任務(wù)相似度采樣軌跡和對應(yīng)的閱讀全文

posted @ 2024-04-24 13:48 initial_h 閱讀(186) 評論(0) 推薦(0)

2024年3月4日

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

摘要：發(fā)表時間：2020 文章要點：這篇文章主要介紹當前offline RL的研究進展，可能的問題以及一些解決方法。作者先介紹了強化學習的準備知識，比如policy gradients，Approximate dynamic programming，Actor-critic algorithms，Mod 閱讀全文

posted @ 2024-03-04 10:13 initial_h 閱讀(380) 評論(0) 推薦(0)

2024年3月1日

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

摘要：發(fā)表時間：2021(IEEE Transactions on Neural Networks and Learning Systems) 文章要點：這篇文章提出一個新的experience replay的方法，improved SAC (ISAC)。大概思路是先將replay buffer里面好的e 閱讀全文

posted @ 2024-03-01 03:22 initial_h 閱讀(69) 評論(0) 推薦(0)

2024年2月24日

State Distribution-aware Sampling for Deep Q-learning

摘要：發(fā)表時間：2018(Neural Processing Letters 2019) 文章要點：這篇文章認為之前的experience replay的方法比如PER沒有將transition的分布情況考慮在內(nèi)，于是提出一個新的experience replay的方法，將occurrence frequ 閱讀全文

posted @ 2024-02-24 01:04 initial_h 閱讀(55) 評論(0) 推薦(0)

2024年2月17日

Large Batch Experience Replay

摘要：發(fā)表時間：2021(ICML 2022) 文章要點：這篇文章把experience replay看做一個通過importance sampling來估計梯度的問題，從理論上推導(dǎo)經(jīng)驗回放的最優(yōu)采樣分布，然后提出LaBER (Large Batch Experience Replay)算法來近似這個采樣閱讀全文

posted @ 2024-02-17 00:50 initial_h 閱讀(50) 評論(0) 推薦(0)

2024年2月14日

Prioritized Experience Replay

摘要：發(fā)表時間：2016（ICLR 2016）文章要點：這篇文章提出了很經(jīng)典的experience replay的方法PER，通過temporal-difference (TD) error來給采樣賦權(quán)重（Sequences associated with rewards appear to be re 閱讀全文

posted @ 2024-02-14 08:29 initial_h 閱讀(105) 評論(0) 推薦(0)

2024年2月11日

Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

摘要：發(fā)表時間：2019 (NeurIPS 2019) 文章要點：這篇文章提出Episodic Backward Update (EBU)算法，采樣一整條軌跡，然后從后往前依次更新做experience replay，這種方法對稀疏和延遲回報的環(huán)境有很好的效果（allows sparse and dela 閱讀全文

posted @ 2024-02-11 02:46 initial_h 閱讀(49) 評論(0) 推薦(0)

2023年8月13日

Experience Replay with Likelihood-free Importance Weights

摘要： ![](https://img2023.cnblogs.com/blog/1428973/202308/1428973-20230813231501149-700899538.png) **發(fā)表時間：**2020 **文章要點：**這篇文章提出LFIW算法用likelihood作為experienc 閱讀全文

posted @ 2023-08-13 23:20 initial_h 閱讀(106) 評論(0) 推薦(0)

2023年8月12日

Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization and Non-Uniform Sampling

摘要： ![](https://img2023.cnblogs.com/blog/1428973/202308/1428973-20230812075327194-1111056360.png) **發(fā)表時間：**2020（ICML 2020） **文章要點：**這篇文章基于SAC做簡單并且有效的改進來提升閱讀全文

posted @ 2023-08-12 08:00 initial_h 閱讀(64) 評論(0) 推薦(0)

initial_h

???https://github.com/initial-h

公告