强化学习
-
基于深度强化学习的目标驱动型视觉导航泛化模型
深度强化学习在目标驱动型视觉导航的泛化 参考论文《Towards Generalization in Target-Driven Visual Navigation by Usin…
-
ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
写在最前面,为了彻底写清楚ChatGPT背后的所有关键细节,从1月初写到5月底仍未完工,除了本文之外,过程中涉及到多篇文章(RL入门、论文解读、微调实战、代码实现、CV多模态),再…
-
【深度强化学习】(7) SAC 模型解析,附Pytorch完整代码
大家好,今天和各位分享一下 SAC (Soft Actor Critic) 算法,一种基于最大熵的无模型的深度强化学习算法。基于 OpenAI 的 gym 环境完成一个小案例,完整…
-
【深度强化学习】(1) DQN 模型解析,附Pytorch完整代码
大家好,今天和各位讲解一下深度强化学习中的基础模型 DQN,配合 OpenAI 的 gym 环境,训练模型完成一个小游戏,完整代码可以从我的 GitHub 中获得: https:/…
-
【深度强化学习】(5) DDPG 模型解析,附Pytorch完整代码
大家好,今天和各位分享一下深度确定性策略梯度算法 (Deterministic Policy Gradient,DDPG)。并基于 OpenAI 的 gym 环境完成一个小游戏。完…
-
【深度强化学习】(6) PPO 模型解析,附Pytorch完整代码
大家好,今天和各位分享一下深度强化学习中的近端策略优化算法(proximal policy optimization,PPO),并借助 OpenAI 的 gym 环境完成一个小案例…
-
【深度强化学习】(4) Actor-Critic 模型解析,附Pytorch完整代码
大家好,今天和各位分享一下深度强化学习中的 Actor-Critic 演员评论家算法,Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。我将使用该模型结合 O…
-
PPO2代码 pytorch框架
PPO2代码玩gym库的Pendulum环境 2022-8-02更新 我发现这篇文章浏览量惨淡啊。 咋滴,是不相信的我代码能用是吗? 所以,我给出reward的收敛曲线图: 开玩笑…
-
本科生学深度学习,搭建环境,再不入坑就晚了
目录 最近没怎么写游戏了,一直在写python,是因为我对深度学习感兴趣,想学习一下,同时也觉得AI是未来,所以去学习了一段时间。 1、目的 AI 和游戏的结合是 …
-
强化学习笔记:Gym入门–从安装到第一个完整的代码示例
目录 0. 前言 Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接…