强化学习
-
【深度强化学习】多智能体算法汇总
0 Preliminaries 在多智能体强化学习算法中,两个主要的技术指标为合理性与收敛性。 合理性(rationality):在对手使用一个恒定策略的情况下,当前智能体能够学习…
-
Instruction Tuning(FLAN、instructGPT、chatGPT)
首页最近被chatGPT刷屏,但翔二博主左看右看发现很多想法似乎都是一脉相通的,于是连夜从存档中找了一些文章尝试理一理它的理论路线。 具身智能综述和应用(Embodied AI) …
-
深度强化学习DRL训练指南和现存问题(D3QN(Dueling Double DQN))
目录 参数 iteration episode epoch Batch_Size Experimence Replay Buffer经验回放缓存 Reward discount f…
-
具身智能综述和应用(Embodied AI)
什么是具身智能? 目前人工智能的进展,在诸多数据源和数据集(Youtube、Flickr、Facebook)、机器计算能力(CPU、GPU、TPU)的加持下,已经在CV、NLP上取…
-
深度强化学习-DQN算法原理与代码
DQN算法是DeepMind团队提出的一种深度强化学习算法,在许多电动游戏中达到人类玩家甚至超越人类玩家的水准,本文就带领大家了解一下这个算法,论文和代码的链接见下方。 论文:Hu…
-
【强化学习】Q-Learning算法详解
1 Q-Learning算法简介 1.1 行为准则 我们做很多事情都有自己的行为准则,比如小时候爸妈常说:不写完作业就不准看电视。所以我们在写作业这种状态下,写的好的行为就是继续写…
-
强化学习之stable_baseline3详细说明和各项功能的使用
本文基于官方文档的基础上,把其中的重要部分整合和翻译,并整理成容易理解的顺序。其中蕴含有大量使用案例,方便大家理解和查看。 官方文档:https://stable-baseline…
-
【论文阅读】深度强化学习的攻防与安全性分析综述
文章目录 一.论文信息 二.论文结构 三.论文内容 摘要 1 深度强化学习方法 2 深度强化学习的攻击方法 2.1 基于观测的攻击 4 深度强化学习的安全性分析 5 应用平台与安全…
-
Alpha-go论文分享
Mastering the game of Go with deep neural networks and tree search 战绩 具体方法 监督学习 + 强化学习 + M…
-
强化学习之混合动作空间
强化学习之混合动作空间 基本介绍 在强化学习的动作空间设定中有连续动作空间,离散动作空间和混合动作空间。在大多数的论文中研究的都是连续动作空间和离散动作空间,而混合动作空间研究的比…