强化学习

【深度强化学习】多智能体算法汇总

0 Preliminaries 在多智能体强化学习算法中，两个主要的技术指标为合理性与收敛性。合理性（rationality）：在对手使用一个恒定策略的情况下，当前智能体能够学习…

乘风
技术文章 2023年3月1日
18300
技术文章

Instruction Tuning（FLAN、instructGPT、chatGPT）

首页最近被chatGPT刷屏，但翔二博主左看右看发现很多想法似乎都是一脉相通的，于是连夜从存档中找了一些文章尝试理一理它的理论路线。具身智能综述和应用（Embodied AI） …

心中带点小风骚
2023年2月25日
27000
技术文章

深度强化学习DRL训练指南和现存问题（D3QN（Dueling Double DQN））

目录参数 iteration episode epoch Batch_Size Experimence Replay Buffer经验回放缓存 Reward discount f…

青葱年少
2023年2月25日
44600
技术文章

具身智能综述和应用（Embodied AI）

什么是具身智能？目前人工智能的进展，在诸多数据源和数据集（Youtube、Flickr、Facebook）、机器计算能力（CPU、GPU、TPU）的加持下，已经在CV、NLP上取…

青葱年少
2023年2月25日
40000
技术文章

深度强化学习-DQN算法原理与代码

DQN算法是DeepMind团队提出的一种深度强化学习算法，在许多电动游戏中达到人类玩家甚至超越人类玩家的水准，本文就带领大家了解一下这个算法，论文和代码的链接见下方。论文：Hu…

扎眼的阳光
2023年2月25日
15600
技术文章

【强化学习】Q-Learning算法详解

1 Q-Learning算法简介 1.1 行为准则我们做很多事情都有自己的行为准则，比如小时候爸妈常说：不写完作业就不准看电视。所以我们在写作业这种状态下，写的好的行为就是继续写…

社会演员多
2023年2月23日
12200
强化学习之stable_baseline3详细说明和各项功能的使用

本文基于官方文档的基础上，把其中的重要部分整合和翻译，并整理成容易理解的顺序。其中蕴含有大量使用案例，方便大家理解和查看。官方文档：https://stable-baseline…

扎眼的阳光
技术文章 2023年2月23日
21800
【论文阅读】深度强化学习的攻防与安全性分析综述

文章目录一.论文信息二.论文结构三.论文内容摘要 1 深度强化学习方法 2 深度强化学习的攻击方法 2.1 基于观测的攻击 4 深度强化学习的安全性分析 5 应用平台与安全…

xiaoxingxing
技术文章 2022年10月8日
49000
Alpha-go论文分享

Mastering the game of Go with deep neural networks and tree search 战绩具体方法监督学习 + 强化学习 + M…

社会演员多
技术文章 2022年6月13日
22800
强化学习之混合动作空间

强化学习之混合动作空间基本介绍在强化学习的动作空间设定中有连续动作空间，离散动作空间和混合动作空间。在大多数的论文中研究的都是连续动作空间和离散动作空间，而混合动作空间研究的比…

心中带点小风骚
技术文章 2022年6月8日
58900