Generative Adversarial Imitation Learning (GAIL)
三月 03, 2022
简介
论文:https://arxiv.org/abs/1606.03476
本文要解决的是Imitation Learning和Inverse RL。基本思想比较简单,利用GAN的对抗训练来生成给定的专家数据分布。为什么要用GAN,作者提出,一般Imitation Learning传统的Behavioral Cloning的方法存在状态漂移的问题,一旦遇到没有在专家轨迹中出现的状态将会产生很大的误差以及累计误差;此外,Inverse RL逆强化学习的方法把强化学习的学习过程套在求解cost function的过程中,因此效率很低;然后,逆强化学习只学到的cost function只是解释了专家轨迹,但没有学习到策略,而利用GAIL可以直接显式的得到决策,更高效。
GAIL的核心在于,尽管使用了对抗的思想,但并没有显式的Generator在其中,充当Generator作用的是智能体的Policy。GAIL的学习大致分为两步,第一步通过当前policy采样得到的数据与专家数据进行对抗训练来训练Discriminator;然后,利用Discriminator作为surrogate reward function来训练策略Policy,文章使用的TRPO。
查看评论