Tag: 强化学习 - Sunrisulfr的菠萝屋

三月 03, 2022

通过融合深度学习与知识图谱技术，推荐系统的性能取得了大幅的提升。然而，多数的推荐系统仍是以一步到位的方式建立的：它们有着类似的搭建方式，即在充分获取用户历...

一月 20, 2021

SAC (Soft Actor Critic)是一种对随机策略进行非策略优化的算法，在随机策略优化和ddpg方法之间架起了一座桥梁。它并不是TD3的直接继...

一月 10, 2021

虽然DDPG有时可以获得很好的性能，但对于超参数和其他类型的调优，它经常是脆弱的。DDPG最常见的失效模式是学习后的q函数开始大幅高估q值，从而导致策略失...

一月 03, 2021

DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法，它解决了Actor-Critic 神经网络每次参数更新前后都存在相关性，导...

十二月 31, 2020

了解AlphaGO 选出好棋-增强学习Reinforcement Learning 模仿学习增强学习 “手下一步棋，心想三步棋”-蒙特卡罗树MCTS围棋问...

Generative Adversarial Imitation Learning (GAIL)