强化学习

技术文章

MMGC(ACM Multimedia Grand Challenge)总结

MMGC(ACM Multimedia Grand Challenge)总结前段时间参加了ACM Multimedia Grand Challenge的比赛，自己最近空闲时间也比…

青葱年少
2022年6月1日
22700
技术文章

机械臂强化学习实战（stable baselines3+panda-gym）

今天参考知乎岳小飞的博客尝试用一下比较标准的机械臂+强化学习的实战项目。这篇博客主要记录一下实现过程，当做个人学习笔记。在第一遍安装过程中遇到了panda-gym和stb3以及g…

青葱年少
2022年5月31日
71800
PyTorch强化学习实战（1）——强化学习环境配置与PyTorch基础

0. 前言工欲善其事，必先利其器。为了更专注于学习强化学习的思想，而不必关注其底层的计算细节，我们首先搭建相关深度学习环境，主要包括 Python 以及 PyTorch。Pyth…

心中带点小风骚
技术文章 2022年5月30日
52500
技术文章

多智能体强化学习之MAPPO理论解读

本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent …

扎眼的阳光
2022年5月27日
95900
基于强化学习的机器人抓取之 stochastic search

前言最近看google的机器人抓取算法QT-Opt，该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learni…

乘风
技术文章 2022年5月26日
35700
强化学习拾遗 —— Off-policy 方法中的重要性采样比

重要度采样比的概念在 RL 中似乎很简单，我以前也没太关注过，最近看 PER 论文突然想到一个问题，为何基于 DQN 的 PER 需要重要度采样比，而基于 Q-learning 的…

心中带点小风骚
技术文章 2022年5月23日
47000
强化学习系列文章(三十)：训练利器Gym Wrapper

强化学习系列文章(三十)：训练利器Gym Wrapper 在训练LunarLander环境的智能体算法时，学习到CleanRL的PPO代码，是我目前测试过训练速度最快的PPO版本。…

社会演员多
技术文章 2022年5月18日
54800
技术文章

论文阅读｜DRL求解动态FJSP

文献：Liu R , Piplani R , Toro C . Deep reinforcement learning for dynamic scheduling of a fl…

扎眼的阳光
2022年5月13日
36700
论文理解【RL经典】 —— 【DQN】Human-level control through deep reinforcement learning

标题：Human-level control through deep reinforcement learning 文章链接： Human-level control throu…

扎眼的阳光
技术文章 2022年4月15日
40700
技术文章

Python多进程(multiprocessing)

Python多进程(multiprocessing) 最近，我一直在做一些联邦学习方面的研究。因为联邦学习的过程中涉及到多个客户端的训练，所以我在写程序的一开始并没有在程序中添加多…

心中带点小风骚
2022年3月29日
72100