强化学习 | AI技术聚合

多目标优化（Python）：多目标粒子群优化算法（MOPSO）求解ZDT1、ZDT2、ZDT3、ZDT4、ZDT6（提供Python代码）

一、多目标粒子群优化算法多目标粒子群优化算法（MOPSO）是一种用于解决多目标优化问题的进化算法。它基于粒子群优化算法（PSO），通过引入多个目标函数和非支配排序来处理多目标问题…

心中带点小风骚

IT 2024年5月6日

21800

强化学习中的 AC（Actor-Critic）、A2C（Advantage Actor-Critic）和A3C（Asynchronous Advantage Actor-Critic）算法

文章目录 AC算法 A2C算法 A3C算法 AC算法 AC（Actor-Critic）算法是强化学习中的一种基本方法，它结合了策略梯度方法和价值函数方法的优点。在 Actor-Cr…

乘风

IT 2024年4月1日

6500

深入理解强化学习——马尔可夫决策过程：动态规划方法

分类目录：《深入理解强化学习》总目录动态规划（Dynamic Programming，DP）适合解决满足最优子结构（Optimal Substructure）和重叠子问题（Ove…

青葱年少

IT 2024年1月11日

7900

Pytorch深度强化学习案例：基于Q-Learning的机器人走迷宫

目录 0 专栏介绍 1 Q-Learning算法原理 2 强化学习基本框架 3 机器人走迷宫算法 3.1 迷宫环境 3.2 状态、动作和奖励 3.3 Q-Learning算法实现 …

心中带点小风骚

IT 2024年1月11日

10700

【深度强化学习】(2) Double DQN 模型解析，附Pytorch完整代码

大家好，今天和大家分享一个深度强化学习算法 DQN 的改进版 Double DQN，并基于 OpenAI 的 gym 环境库完成一个小游戏，完整代码可以从我的 GitHub 中获得…

青葱年少

Python 2024年1月6日

23800

DQN基本概念和算法流程（附Pytorch代码）

❀DQN算法原理 DQN，Deep Q Network本质上还是Q learning算法，它的算法精髓还是让尽可能接近，或者说是让当前状态下预测的Q值跟基于过去经验的Q值尽可能接近…

xiaoxingxing

IT 2023年12月26日

9700

深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]

分类目录：《深入理解强化学习》总目录文章《深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特…

xiaoxingxing

IT 2023年12月21日

8200

在DJI大疆做算法的日常工作与体验~

大家好，我是对白。今天给大家分享一位朋友在大疆做算法工程师的日常，工作内容还是比较有趣的，也给我们科普了大疆的一些福利，以下为原文。作者：全之 | 编辑：对白的算法屋 http…

青葱年少

IT 2023年12月11日

9000

ChatGPT强化学习大杀器——近端策略优化（PPO）

ChatGPT强化学习大杀器——近端策略优化（PPO）近端策略优化（Proximal Policy Optimization）来自 Proximal Policy Optimiz…

心中带点小风骚

Python 2023年11月13日

15800

Policy Gradient策略梯度算法详解

1. 基本思想 Policy Gradient策略梯度（PG），是一种基于策略的强化学习算法，不少帖子会讲到从基于值的算法（Q-learning/DQN/Saras）到基于策略的算…

扎眼的阳光

Python 2023年11月13日

10800