强化学习
-
一分钟秒懂人工智能对齐
目录 1.什么是人工智能对齐 人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。 人工智能系统可能会出现“不对齐”(misalign)的问题。以Cha…
-
Q-learning算法介绍
Q-learning基本思想 Q-learning是一种value-based算法,它学习一个最优动作价值函数,那么能够获得最优策略 Q-learning算法的基本思想是,鼓励最优…
-
Python-DQN-L1、L2和Huber损失
1.L1损失 L1损失,也称为平均绝对误差(Mean Absolute Error,MAE),是一种在回归问题中使用的损失函数,用于衡量预测值与实际值之间的绝对差异。 L1损失的数…
-
Python强化学习实战及其AI原理详解
文章目录 1. 引言 2. 时间旅行和平行宇宙 3. 强化学习 4. 策略梯度算法 5. 代码案例 6. 推荐阅读与粉丝福利 1. 引言 时间循环是一类热门的影视题材,其设定常…
-
【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解
1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Dee…
-
【深度强化学习】(8) iPPO 模型解析,附Pytorch完整代码
大家好,今天和各位分享一下多智能体深度强化学习算法 ippo,并基于 gym 环境完成一个小案例。完整代码可以从我的 GitHub 中获得:https://github.com/L…
-
Webots搭建强化学习二轮避障小车(看看吧 蛮详细的)
作为一个刚接触webots数日的新手,来着手使用webots搭建一个二轮小车并实现避障的任务,以及使用webots进行强化学习的尝试。该文章主要有如下的内容: 大概内容: …
-
生成模型之VAE与VQ-VAE
有关图像处理的课程作业需要学习一篇论文,此论文中作者使用了VQ-VAE模型对舞蹈动作进行编码。因此,对相关知识略作整理以供之后查找。 AE、VAE和…
-
通用人工智能之路:什么是强化学习?如何结合深度学习?
目录 1 ChatGPT中的强化学习 2 环境与智能体的交互 3 强化学习特征四元组 4 深度强化学习的引入 5 教程大纲 加入我们 1 ChatGPT中的强化学习 2015年,O…
-
Pytorch深度强化学习:Gym安装与环境搭建教程(附基本指令表)
目录 1 Gym介绍 2 Gym安装 3 基本指令 3.1 `make()` 3.2 `reset()` 3.3 `step()` 3.4 `close()` 4 常见问题 参考资…