From "LLM" to "Agent"（從大語言模型到智能體）

比爾·蓋茨近期發表了一篇博客，其中談到Agents將會是LLM的未來方向。LLM是一個Decoder，是Agent的大腦。LLM和Agent的區別，正如GPT-4和ChatGPT的區別。

1 Intro

如圖所示：

Agents具有運用“Tools”的能力，可以調用外部api或沙盤來執行代碼；
Agents具有多種“Memory”的能力，短期記憶指的是當前token內的上下文窗口，長期記憶指的是LLM的權重參數；
Agents具有可以“Planning”的能力，能夠自主進行子任務分解和自我反省。

2 Tool Usage

能夠使用工具是人類與其他生物在很多方面的區別。我們創造、修改和利用外部物體來擴展我們的身體和認知能力。同樣，為大語言模型配備外部工具可以顯著擴展其功能。

在AI Agents設置中，工具對應于一組工具集合，這些工具集合使LLM Agents能夠與外部環境(如谷歌搜索、代碼解釋器、數學引擎等)進行交互。工具也可以是某種形式的數據庫、知識庫和外部模型。當Agents與外部工具交互時，它通過工作流執行任務，這些工作流幫助Agents獲得觀察結果或必要的上下文，以完成給定的子任務并最終完成完整的任務。

3 Memories

《普通心理學》書中將人的記憶區分為三種：感覺記憶（瞬時記憶）、工作記憶（短期記憶）、長時記憶（長期記憶）。

對于Agents來說，感覺記憶就是Embedding后的嵌入向量；工作記憶則是經過Transformer注意力機制捕捉后的隱狀態序列；長時記憶則通常指大語言模型的權重參數。

除了內部記憶，Agents可以使用外部記憶如RAG機制。

4 Planning Strategy

Agents的規劃能力是當前的最大挑戰。

如圖所示，有很多這樣的論文，即思想鏈，思想樹，思想算法（也稱思想圖）。這些方法都在原本的LLM Decoder上強調分步推理的提示工程和微調。提示工程幫助引導模型，模型具體的推理過程是自己分析得出的。

4.1 自我反省

上述規劃模塊不涉及任何反饋，這使得很難實現長期規劃，特別是解決復雜任務所必需的。為了應對這一挑戰，我們可以創建一個過程，以迭代地反映和改進基于過去的行動和觀察的執行計劃。目標是糾正和改進過去的錯誤，這有助于提高最終結果的質量。

和人類一樣，Agents需要策略從錯誤中汲取教訓。

ReAct

ReAct結合了推理和行動，旨在使LLM能夠通過在一系列步驟(重復N次)之間交錯來解決復雜的任務:Thought，Action和Observation。

Reflexion

這是一個基于ReAct改進，為智能體提供動態記憶和自我反思能力以提高推理能力的框架。反射有一個標準的強化學習設置，其中獎勵模型提供一個簡單的二元獎勵，操作空間遵循ReAct中的設置，其中特定于任務的操作空間用語言增強，以支持復雜的推理步驟。

Chain of Hindsight（CoH）

模型被要求通過查看自己過去的工作來改進自己，進行評分，并附上關于下次如何做得更好的筆記。該模型通過使用其自身嘗試和反饋的歷史，嘗試產生一個將獲得更好評級的新輸出來進行實踐。

Algorithm Distillation（AD）

AD算法蒸餾將類似的想法應用于機器人或代理學習任務。代理回顧它在過去幾次嘗試中的表現，并試圖找出改進的算法模式。然后，它預測下一步應該比之前的動作更好，學習變得更好的算法策略。

參考博文https://luxiangdong.com/2024/04/28/agents2/。

posted @ 2024-09-04 12:33 rainrzk 閱讀(398) 評論(0) 收藏舉報

刷新頁面返回頂部

Rain