
一月 03, 2022
深度学习面试问题
为什么要用深度召回?特征表征能力更强,比如引入了序列特征,位置特征,进行了embedding,加了attention等等 优秀的网络结构+drop机制,相...
一月 03, 2022
为什么要用深度召回?特征表征能力更强,比如引入了序列特征,位置特征,进行了embedding,加了attention等等 优秀的网络结构+drop机制,相...
一月 20, 2021
SAC (Soft Actor Critic)是一种对随机策略进行非策略优化的算法,在随机策略优化和ddpg方法之间架起了一座桥梁。它并不是TD3的直接继...
一月 10, 2021
虽然DDPG有时可以获得很好的性能,但对于超参数和其他类型的调优,它经常是脆弱的。DDPG最常见的失效模式是学习后的q函数开始大幅高估q值,从而导致策略失...
一月 03, 2021
DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法,它解决了Actor-Critic 神经网络每次参数更新前后都存在相关性,导...
十二月 31, 2020
了解AlphaGO 选出好棋-增强学习Reinforcement Learning 模仿学习增强学习 “手下一步棋,心想三步棋”-蒙特卡罗树MCTS围棋问...
十二月 03, 2020
Tune:使用指南资源 (Parallelism, GPUs, Distributed)Parallelism is determined by reso...
十一月 03, 2020
OVERVIEW RAY What is Ray?Ray 提供了一个简单的通用 API,用于构建分布式应用程序。 Ray通过以下三步完成此任务: 为构建...