强化学习
-
MDP的决策迭代和值迭代
MDP(马尔可夫决策过程) 给定当前状态,未来和过去是独立的。对于MDP,行动的结果仅取决于当前状态,而和过去没关系,这种特性有时被称为“无记忆性”。这个过程可以概括为五个部分: …
-
将强化学习应用于实践中的量化投资(神经网络模块开发)
将强化学习应用于实践中的量化投资(神经网络模块开发) 1.前言 在本节内容中,将详细介绍神经网络模块中包含的几个神经网络类的属性和功能,并详细讲解基于 Python和Pytorch…
-
强化学习入门实践教学
参考视频:https://www.bilibili.com/video/BV1yv411i7xd 代码下载:https://github.com/PaddlePaddle/PARL…
-
什么是强化学习? (主要强化学习概念)
什么是强化学习? (主要强化学习概念) 4.主要的强化学习概念 强化学习与的概念没有太大区别,但具有以下特点: 无法预先知道完整的状态转移概率和补偿函数 状态集(几乎)是无限的 在…
-
RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C
RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C Pollicy Gradient Policy Gradient不通过误差反向传播,它通过观测信息选出一个…
-
强化学习应用《王者荣耀》完虐人类玩家外的7个现实世界的应用
很多人都知道python代码下的强化学习能够已经能打王者荣耀了,并且能完虐人类玩家,不了解的先来俩视频了解一下。 梦泪被AI击杀6次,KPL首次呈现“AI(人工智能)”VS“人类明…
-
值函数近似Value Function Approximation
1.Introduction 值函数有两种:状态值函数V(s)和动作状态值函数Q(s,a)。对于大规模MDP问题,有很多state或者action需要存储,单个学习每种状态的价值非…
-
使用matplotlib库实现图形局部数据放大显示
使用matplotlib实现图形局部数据放大显示 一、绘制整体图形 import numpy as np import matplotlib.pyplot as plt from …
-
深度强化学习-带基线的策略梯度算法原理
引言本文主要介绍策略梯度算法的一种改进——带基线的策略梯度算法(Reinforce with baseline)。通过引入基线,有效降低了学习过程中的方差,从而提升训练过程的稳定性。1 基线基线函数可以是任意随机函数或确定函数,它可以与状态有关,但是不能和动作有关。满足这样的条件后,基线函数自然满足证明:由于和动作无关,所以进而得证。…
-
强化学习之Q-Learning(附代码)
Q Q Q– L e a r n i n g \mathrm{Learning} Learning算法介绍 QQQ–Learning\mathrm{Le…