深度强化学习

深入理解强化学习——马尔可夫决策过程：动态规划方法

分类目录：《深入理解强化学习》总目录动态规划（Dynamic Programming，DP）适合解决满足最优子结构（Optimal Substructure）和重叠子问题（Ove…

青葱年少

IT 2024年1月11日

9300

【深度强化学习】(2) Double DQN 模型解析，附Pytorch完整代码

大家好，今天和大家分享一个深度强化学习算法 DQN 的改进版 Double DQN，并基于 OpenAI 的 gym 环境库完成一个小游戏，完整代码可以从我的 GitHub 中获得…

青葱年少

Python 2024年1月6日

33300

深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]

分类目录：《深入理解强化学习》总目录文章《深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特…

xiaoxingxing

IT 2023年12月21日

9600

Python-DQN-L1、L2和Huber损失

1.L1损失 L1损失，也称为平均绝对误差（Mean Absolute Error，MAE），是一种在回归问题中使用的损失函数，用于衡量预测值与实际值之间的绝对差异。 L1损失的数…

xiaoxingxing

Python 2023年11月10日

12400

【深度强化学习】(8) iPPO 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下多智能体深度强化学习算法 ippo，并基于 gym 环境完成一个小案例。完整代码可以从我的 GitHub 中获得：https://github.com/L…

乘风

Python 2023年10月19日

29800

Python

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下 SAC (Soft Actor Critic) 算法，一种基于最大熵的无模型的深度强化学习算法。基于 OpenAI 的 gym 环境完成一个小案例，完整…

扎眼的阳光

2023年5月7日

82300

Python

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

大家好，今天和各位讲解一下深度强化学习中的基础模型 DQN，配合 OpenAI 的 gym 环境，训练模型完成一个小游戏，完整代码可以从我的 GitHub 中获得： https:/…

乘风

2023年4月24日

31700

Python

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度确定性策略梯度算法 (Deterministic Policy Gradient，DDPG)。并基于 OpenAI 的 gym 环境完成一个小游戏。完…

扎眼的阳光

2023年4月22日

34300

Python

【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度强化学习中的近端策略优化算法（proximal policy optimization，PPO），并借助 OpenAI 的 gym 环境完成一个小案例…

xiaoxingxing

2023年4月6日

1.3K00

Python

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度强化学习中的 Actor-Critic 演员评论家算法，Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。我将使用该模型结合 O…

乘风

2023年4月5日

41500