强化学习 | 第3页 | AI技术聚合

基于深度强化学习的目标驱动型视觉导航泛化模型

深度强化学习在目标驱动型视觉导航的泛化参考论文《Towards Generalization in Target-Driven Visual Navigation by Usin…

社会演员多

Python 2023年6月10日

6500

ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT

写在最前面，为了彻底写清楚ChatGPT背后的所有关键细节，从1月初写到5月底仍未完工，除了本文之外，过程中涉及到多篇文章(RL入门、论文解读、微调实战、代码实现、CV多模态)，再…

xiaoxingxing

Python 2023年6月4日

8800

Python

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下 SAC (Soft Actor Critic) 算法，一种基于最大熵的无模型的深度强化学习算法。基于 OpenAI 的 gym 环境完成一个小案例，完整…

扎眼的阳光

2023年5月7日

46000

Python

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

大家好，今天和各位讲解一下深度强化学习中的基础模型 DQN，配合 OpenAI 的 gym 环境，训练模型完成一个小游戏，完整代码可以从我的 GitHub 中获得： https:/…

乘风

2023年4月24日

15700

Python

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度确定性策略梯度算法 (Deterministic Policy Gradient，DDPG)。并基于 OpenAI 的 gym 环境完成一个小游戏。完…

扎眼的阳光

2023年4月22日

22800

Python

【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度强化学习中的近端策略优化算法（proximal policy optimization，PPO），并借助 OpenAI 的 gym 环境完成一个小案例…

xiaoxingxing

2023年4月6日

82100

Python

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度强化学习中的 Actor-Critic 演员评论家算法，Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。我将使用该模型结合 O…

乘风

2023年4月5日

21000

Python

PPO2代码 pytorch框架

PPO2代码玩gym库的Pendulum环境 2022-8-02更新我发现这篇文章浏览量惨淡啊。咋滴，是不相信的我代码能用是吗？所以，我给出reward的收敛曲线图：开玩笑…

青葱年少

2023年3月6日

21900

本科生学深度学习，搭建环境，再不入坑就晚了

目录最近没怎么写游戏了，一直在写python，是因为我对深度学习感兴趣，想学习一下，同时也觉得AI是未来，所以去学习了一段时间。 1、目的 AI 和游戏的结合是 …

社会演员多

Python 2023年3月5日

11600

Python

强化学习笔记：Gym入门–从安装到第一个完整的代码示例

目录 0. 前言 Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接…

心中带点小风骚

2023年3月5日

75600