站点图标 AI技术聚合

MDP的决策迭代和值迭代

MDP的决策迭代和值迭代

欸呦图丢了

MDP(马尔可夫决策过程)

给定当前状态,未来和过去是独立的。对于MDP,行动的结果仅取决于当前状态,而和过去没关系,这种特性有时被称为“无记忆性”。
这个过程可以概括为五个部分:

MDP试图求解,即奖励最大化。

贝尔曼方程

当前状态的值等于当前状态的奖励和之后可能获得的奖励(递归,无限递归)之和,即:
状态下奖励最大(最优)的动作是:
(它是一个增加维度的函数)输出是从值中选择的输出。

合身

在训练过程中,首先随机执行动作以获得“经验”,其中包含的值。然后从以下选择一个迭代方法来拟合:

无限递归难以实现的问题可以通过指定最大递归层数来解决。

连续状态

可能是一个无限集。对于随机状态,先计算近似值,然后使用监督学习使逼近,其中是高斯噪声,淹没在期望中。

functionvalueIteration(,,,){
var=newRandomSubSet();/*随机选取个状态*/
do{
var=newList();
foreach(in.sample()){
var=;
var=newQ();
foreach(in){
var= filter(,);/**/
var=.length();
/* 所以 的估计 */
=;
}
/*的近似值,最后是*/
=
}
/* 在初始迭代算法中(离散状态),我们根据更新价值函数。然后使用监督学习(线性回归)来实现。 */
=;
}while(isCovergenced());
}

文章出处登录后可见!

已经登录?立即刷新
退出移动版