强化学习 | 第6页 | AI技术聚合

技术文章

MDP的决策迭代和值迭代

MDP（马尔可夫决策过程）给定当前状态，未来和过去是独立的。对于MDP，行动的结果仅取决于当前状态，而和过去没关系，这种特性有时被称为“无记忆性”。这个过程可以概括为五个部分： …

青葱年少

2022年3月25日

51200

技术文章

将强化学习应用于实践中的量化投资（神经网络模块开发）

将强化学习应用于实践中的量化投资（神经网络模块开发） 1.前言在本节内容中，将详细介绍神经网络模块中包含的几个神经网络类的属性和功能，并详细讲解基于 Python和Pytorch…

社会演员多

2022年3月22日

54100

技术文章

强化学习入门实践教学

参考视频：https://www.bilibili.com/video/BV1yv411i7xd 代码下载：https://github.com/PaddlePaddle/PARL…

心中带点小风骚

2022年3月21日

56700

什么是强化学习？（主要强化学习概念）

什么是强化学习？（主要强化学习概念） 4.主要的强化学习概念强化学习与的概念没有太大区别，但具有以下特点：无法预先知道完整的状态转移概率和补偿函数状态集（几乎）是无限的在…

心中带点小风骚

技术文章 2022年3月18日

69500

技术文章

RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C

RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C Pollicy Gradient Policy Gradient不通过误差反向传播，它通过观测信息选出一个…

xiaoxingxing

2022年3月4日

29300

技术文章

强化学习应用《王者荣耀》完虐人类玩家外的7个现实世界的应用

很多人都知道python代码下的强化学习能够已经能打王者荣耀了，并且能完虐人类玩家，不了解的先来俩视频了解一下。梦泪被AI击杀6次，KPL首次呈现“AI（人工智能）”VS“人类明…

社会演员多

2022年2月23日

31800

技术文章

值函数近似Value Function Approximation

1.Introduction 值函数有两种：状态值函数V(s)和动作状态值函数Q(s,a)。对于大规模MDP问题，有很多state或者action需要存储，单个学习每种状态的价值非…

xiaoxingxing

2022年2月21日

71900

技术文章

使用matplotlib库实现图形局部数据放大显示

使用matplotlib实现图形局部数据放大显示一、绘制整体图形 import numpy as np import matplotlib.pyplot as plt from …

社会演员多

2022年2月18日

71900

技术文章

深度强化学习-带基线的策略梯度算法原理

引言本文主要介绍策略梯度算法的一种改进——带基线的策略梯度算法(Reinforce with baseline)。通过引入基线，有效降低了学习过程中的方差，从而提升训练过程的稳定性。1 基线基线函数可以是任意随机函数或确定函数，它可以与状态有关，但是不能和动作有关。满足这样的条件后，基线函数自然满足证明：由于和动作无关，所以进而得证。…

xiaoxingxing

2022年1月23日

80700

技术文章

强化学习之Q-Learning（附代码）

Q Q Q– L e a r n i n g \mathrm{Learning} Learning算法介绍 QQQ–Learning\mathrm{Le…

xiaoxingxing

2021年11月22日

62800