强化学习 | 第2页 | AI技术聚合

一分钟秒懂人工智能对齐

目录 1.什么是人工智能对齐人工智能对齐（AI Alignment）指让人工智能的行为符合人的意图和价值观。人工智能系统可能会出现“不对齐”（misalign）的问题。以Cha…

xiaoxingxing

Python 2023年11月13日

5100

Q-learning算法介绍

Q-learning基本思想 Q-learning是一种value-based算法，它学习一个最优动作价值函数，那么能够获得最优策略 Q-learning算法的基本思想是，鼓励最优…

心中带点小风骚

Python 2023年11月10日

5000

Python-DQN-L1、L2和Huber损失

1.L1损失 L1损失，也称为平均绝对误差（Mean Absolute Error，MAE），是一种在回归问题中使用的损失函数，用于衡量预测值与实际值之间的绝对差异。 L1损失的数…

xiaoxingxing

Python 2023年11月10日

4900

Python强化学习实战及其AI原理详解

文章目录 1. 引言 2. 时间旅行和平行宇宙 3. 强化学习 4. 策略梯度算法 5. 代码案例 6. 推荐阅读与粉丝福利 1. 引言时间循环是一类热门的影视题材，其设定常…

扎眼的阳光

Python 2023年11月10日

5400

【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华，而且还吸收让计算机学会玩游戏的DQN的精华，合并成了一种新算法，叫做Dee…

心中带点小风骚

Python 2023年11月7日

5000

【深度强化学习】(8) iPPO 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下多智能体深度强化学习算法 ippo，并基于 gym 环境完成一个小案例。完整代码可以从我的 GitHub 中获得：https://github.com/L…

乘风

Python 2023年10月19日

10700

Webots搭建强化学习二轮避障小车（看看吧蛮详细的）

作为一个刚接触webots数日的新手，来着手使用webots搭建一个二轮小车并实现避障的任务,以及使用webots进行强化学习的尝试。该文章主要有如下的内容：大概内容： …

乘风

Python 2023年9月21日

16900

生成模型之VAE与VQ-VAE

有关图像处理的课程作业需要学习一篇论文，此论文中作者使用了VQ-VAE模型对舞蹈动作进行编码。因此，对相关知识略作整理以供之后查找。 AE、VAE和…

乘风

Python 2023年9月6日

16800

通用人工智能之路：什么是强化学习？如何结合深度学习？

目录 1 ChatGPT中的强化学习 2 环境与智能体的交互 3 强化学习特征四元组 4 深度强化学习的引入 5 教程大纲加入我们 1 ChatGPT中的强化学习 2015年，O…

扎眼的阳光

Python 2023年7月11日

10600

Pytorch深度强化学习：Gym安装与环境搭建教程(附基本指令表)

目录 1 Gym介绍 2 Gym安装 3 基本指令 3.1 `make()` 3.2 `reset()` 3.3 `step()` 3.4 `close()` 4 常见问题参考资…

心中带点小风骚

Python 2023年6月13日

37900