MDP

  • MDP的决策迭代和值迭代

    MDP(马尔可夫决策过程) 给定当前状态,未来和过去是独立的。对于MDP,行动的结果仅取决于当前状态,而和过去没关系,这种特性有时被称为“无记忆性”。这个过程可以概括为五个部分: …

    2022年3月25日
    5120