https://mp.weixin.qq.com/s/OgjLy_jE9Rk9iZhioPRTDQ

  1. 论文的任务是什么? 构建一个支撑智能体自我学习的框架,并且该框架适用于各种任务。
  2. 之前方法遇到的technical challenges? 已有强化学习算法对于new application domains需要大量的human expertise。
  3. 论文解决challenge的key insight是什么? 构建一个世界模型,帮助智能体在各种任务的自我学习,不需要任何的人类数据。

算法概述

循环以下三步:

以下为流程图:


世界模型的具体设计

包含五个网络:

  1. Encoder:将高维的原始观测编码成一个abstract state ∙ 输入:原始观测o。 ∙ 输出:abstract state z。
  2. Sequence model:预测未来。 ∙ 输入:历史的recurrent state h、 representation z和当前执行的动作a。 ∙ 输出:下一时刻recurrent state h和abstract state z。