需要学习的知识点

  1. Value-based RL(深度Q函数,DQN及其训练方法)
    1. DQN
    2. DQN的训练方法(时间差分 (TD) 算法)
    3. Value-based RL的高级技巧(如何提升Value-based RL的效果)
      1. 经验回放
      2. 高估问题及解决方法(Target Network、Double DQN)
      3. 对决网络 (Dueling Network)
      4. 噪声网络
      5. Multi-step TD target
  2. Policy-based RL(深度策略函数)
    1. 策略网络
    2. 怎么通过策略梯度优化策略网络
    3. 怎么计算策略梯度-方法1:REINFORCE
    4. 怎么计算策略梯度-方法2:Actor-Critic
      1. Actor
      2. Critic:动作价值函数
      3. 如何学习动作价值函数(SARSA算法、Reward model)
    5. 策略学习高级技巧(如何提升Policy-based RL的效果)
      1. 带基线的策略梯度方法
        1. 策略梯度中的基线
        2. 带基线的 REINFORCE 算法
        3. Advantage Actor-Critic (A2C)
      2. Trust Region Policy Optimization (TRPO):一种策略学习方法,可以代替策略梯度方法
      3. PPO:改进TRPO
      4. 熵正则 (Entropy Regularization)
      5. 异策略(离线策略)
        1. 深度确定策略梯度(DDPG)
        2. SAC
  3. Model-based RL
    1. 深度Model-based RL
      1. 模型预测控制
      2. Model-based Policy Optimization
    2. 传统Model-based RL(因为很经典,所以了解一下):动态规划
      1. Dyna-Q
  4. 模仿学习
    1. 行为克隆
    2. 逆向强化学习
    3. 生成判别模仿学习 (GAIL)
  5. 离线强化学习
  6. 元强化学习
  7. RL的Open Challenges
    1. 怎么构建Model
    2. 如何提升Sampling Efficiency
    3. 如何在奖励函数并不明确的场景下学习有效的策略
    4. 如何在奖励稀疏的场景下学习有效的策略
    5. 多智能体强化学习

知识点笔记