Agentic RL for LLMs综述学习笔记 | Notion

Agentic RL（智能体强化学习）的核心思想是：将大语言模型（LLMs）视为可学习的策略，并将其置于序列决策循环中，通过强化学习赋予其智能体能力。

Agentic RL和LLM RL的区别

目标不同：

LLM RL：其目标是将LLM优化为一个更好的静态产品。它是一个工具，旨在更可靠、更安全地响应用户的单一指令。
Agentic RL：其目标是将LLM激活为一个自主智能体。它是一个合作伙伴，旨在代表用户在复杂环境中主动规划并执行多步任务。

Agentic RL对LLM Agent的赋能

Agentic RL可以提升LLM Agent的哪些能力：

Agentic RL对哪些应用很重要