四月 09, 2022

Ray:Core

关键概念本节概述Ray的关键概念。这些原语一起工作,使Ray能够灵活地支持广泛的分布式应用程序。 任务TasksR...

四月 07, 2022

Ray:Data

Ray数据集:分布式数据加载和计算Ray数据集是在Ray库和应用程序中加载和交换数据的标准方式。它们提供基本的分布式数据转换,如映射、过滤和重分区,并与各...

三月 03, 2022

Generative Adversarial Imitation Learning (GAIL)

简介论文:https://arxiv.org/abs/1606.03476本文要解决的是Imitation Learning和Inverse RL。基本思...

三月 03, 2022

个性化推荐系统与强化学习

通过融合深度学习与知识图谱技术,推荐系统的性能取得了大幅的提升。然而,多数的推荐系统仍是以一步到位的方式建立的:它们有着类似的搭建方式,即在充分获取用户历...

三月 02, 2022

机器学习基础

偏差与方差 导致偏差和方差的原因 深度学习中的偏差与方差 偏差/方差 与 Boosting/Bagging 偏差与方差的计算公式 偏差与方差的权衡(过拟...

一月 03, 2022

深度学习面试问题

为什么要用深度召回?特征表征能力更强,比如引入了序列特征,位置特征,进行了embedding,加了attention等等 优秀的网络结构+drop机制,相...

一月 20, 2021

Soft Actor Critic (SAC)

SAC (Soft Actor Critic)是一种对随机策略进行非策略优化的算法,在随机策略优化和ddpg方法之间架起了一座桥梁。它并不是TD3的直接继...

一月 10, 2021

Twin Delayed DDPG (TD3)

虽然DDPG有时可以获得很好的性能,但对于超参数和其他类型的调优,它经常是脆弱的。DDPG最常见的失效模式是学习后的q函数开始大幅高估q值,从而导致策略失...

一月 03, 2021

确定性策略梯度DDPG

DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法,它解决了Actor-Critic 神经网络每次参数更新前后都存在相关性,导...

十二月 31, 2020

AlphaGO:详解

了解AlphaGO 选出好棋-增强学习Reinforcement Learning 模仿学习增强学习 “手下一步棋,心想三步棋”-蒙特卡罗树MCTS围棋问...

加载更多