Agentic RL(智能体强化学习)的核心思想是:将大语言模型(LLMs)视为可学习的策略,并将其置于序列决策循环中,通过强化学习赋予其智能体能力。
Agentic RL和LLM RL的区别
目标不同:
- LLM RL:其目标是将LLM优化为一个更好的静态产品。它是一个工具,旨在更可靠、更安全地响应用户的单一指令。
- Agentic RL:其目标是将LLM激活为一个自主智能体。它是一个合作伙伴,旨在代表用户在复杂环境中主动规划并执行多步任务。

Agentic RL对LLM Agent的赋能
Agentic RL可以提升LLM Agent的哪些能力:

Agentic RL对哪些应用很重要