需要学习的知识点
- Value-based RL(深度Q函数,DQN及其训练方法)
- DQN
- DQN的训练方法(时间差分 (TD) 算法)
- Value-based RL的高级技巧(如何提升Value-based RL的效果)
- 经验回放
- 高估问题及解决方法(Target Network、Double DQN)
- 对决网络 (Dueling Network)
- 噪声网络
- Multi-step TD target
- Policy-based RL(深度策略函数)
- 策略网络
- 怎么通过策略梯度优化策略网络
- 怎么计算策略梯度-方法1:REINFORCE
- 怎么计算策略梯度-方法2:Actor-Critic
- Actor
- Critic:动作价值函数
- 如何学习动作价值函数(SARSA算法、Reward model)
- 策略学习高级技巧(如何提升Policy-based RL的效果)
- 带基线的策略梯度方法
- 策略梯度中的基线
- 带基线的 REINFORCE 算法
- Advantage Actor-Critic (A2C)
- Trust Region Policy Optimization (TRPO):一种策略学习方法,可以代替策略梯度方法
- PPO:改进TRPO
- 熵正则 (Entropy Regularization)
- 异策略(离线策略)
- 深度确定策略梯度(DDPG)
- SAC
- Model-based RL
- 深度Model-based RL
- 模型预测控制
- Model-based Policy Optimization
- 传统Model-based RL(因为很经典,所以了解一下):动态规划
- Dyna-Q
- 模仿学习
- 行为克隆
- 逆向强化学习
- 生成判别模仿学习 (GAIL)
- 离线强化学习
- 元强化学习
- RL的Open Challenges
- 怎么构建Model
- 如何提升Sampling Efficiency
- 如何在奖励函数并不明确的场景下学习有效的策略
- 如何在奖励稀疏的场景下学习有效的策略
- 多智能体强化学习
知识点笔记
- 深度Q函数(DQN及其训练方法)
- Value-based RL的高级技巧(如何提升Value-based RL的效果)
- 深度策略函数(策略学习)
- 如何基于Actor-Critic优化深度策略函数
- 策略学习高级技巧(如何提升Policy-based RL的效果)1:带基线的策略梯度方法
- 策略学习高级技巧(如何提升Policy-based RL的效果)2:Trust Region Policy Optimization (TRPO)