https://mp.weixin.qq.com/s/OgjLy_jE9Rk9iZhioPRTDQ
- 论文的任务是什么?
构建一个支撑智能体自我学习的框架,并且该框架适用于各种任务。
- 之前方法遇到的technical challenges?
已有强化学习算法对于new application domains需要大量的human expertise。
- 论文解决challenge的key insight是什么?
构建一个世界模型,帮助智能体在各种任务的自我学习,不需要任何的人类数据。
算法概述
循环以下三步:
- 智能体与真实环境做交互,收集经验数据。
- 基于经验数据训练世界模型。
- 在世界模型中闭环训练Actor-Critic。
以下为流程图:

世界模型的具体设计
包含五个网络:

- Encoder:将高维的原始观测编码成一个abstract state
∙ 输入:原始观测o。
∙ 输出:abstract state z。
- Sequence model:预测未来。
∙ 输入:历史的recurrent state h、 representation z和当前执行的动作a。
∙ 输出:下一时刻recurrent state h和abstract state z。