动态规划（Dynamic programming）详解

动态规划（Dynamic programming，简称DP）是一种将复杂问题分解成很多子问题，并将子问题的求解结果存储起来避免重复求解的一种算法。动态规划一般用来解决最优问题。而解决问题的过程，需要经历多个决策阶段。每个决策阶段都对应着一组状态。最后通过一组决策序列（动态转移方程），产生最终期望的最优解。
能用动态规划解决的问题，需要满足三个条件：最优子结构，无后效性和子问题重叠。

Table of Contents

一、基本概念（动态规划的三个特征）

最优化原理（最优子结构性质）：一个最优化策略具有这样的性质，不论过去状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。简而言之，一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。
无后效性：将各阶段按照一定的次序排列好之后，对于某个给定的阶段状态，它以前各阶段的状态无法直接影响它未来的决策，而只能通过当前的这个状态。换句话说，每个状态都是过去历史的一个完整总结。这就是无后向性，又称为无后效性。
子问题的重叠性：如果有大量的重叠子问题，我们可以用空间将这些子问题的解存储下来，避免重复求解相同的子问题，从而提升效率。本质上，动态规划是一种以空间换时间的技术。

上面是摘自百度百科的解释，比较拗口。下面看看网上摘的另一个回答。

一个模型指的是动态规划适合解决的问题模型。我把这个模型定义为“多阶段决策最优解模型”。

最优子结构：指的是，问题的最优解包含子问题的最优解。反过来说就是，我们可以通过子问题的最优解，推导出问题的最优解。如果我们把最优子结构，对应到我们前面定义的动态规划问题模型上，那我们也可以理解为，后面阶段的状态可以通过前面状态推导出来。
无后效性：无后效性，有两层含义，第一层含义是，在推导后面阶段状态的时候，我们只关心前面阶段的状态值，不关心这个状态是怎么一步步推导出来的。第二层含义是，某阶段状态一旦确定，就不受之后阶段的决策影响。即已经求解的子问题，不会再受到后续决策的影响。
重复子问题：不同的决策序列，到达某个相同的阶段时，可能会产生重复的状态。即存在子问题进行了重复计算。

举例：比如要求年级考试最高分时，我们可以把这个问题拆分成求每个班级的最高分，最后再通过每个班级的最高分去求年级的最高分。这个问题就符合最优子结构：可以从子问题的最优结果推出更大规模问题的最优结果。计算每个班的最优成绩就是子问题，你知道所有子问题的答案后，就可以借此推出全校学生的最优成绩这个规模更大的问题的答案。

再举个例子：假设学校有 10 个班，你已知每个班的最大分数差（最高分和最低分的差值），那么现在要计算全校学生中的最大分数差。此问题就不符合最优子结构，因为年级的最大分数差不能通过每个班级的最大分数差去计算出来（比如全校的最大分数差可能是 3 班的最高分和 6 班的最低分之差）。

对于这种最优子结构失效的情况，我们有时可以通过改造问题来使问题符合最优子结构。

最大分数差，等价于什么？不就是等价于最高分数和最低分数的差么？不就是第一个例子中的求最值问题么？那么不就是具有最优子结构了么？此时就可以改变思路，借助最优子结构解决最值问题，再回过头解决最大分数差问题。

参考：什么是最优子结构、如何判定 DP 数组的遍历方向 – 知乎

同分治法（Divide and Conquer）一样，动态规划也是将子问题的求解结果进行合并，其主要用在当子问题需要一次又一次地重复求解时，将子问题的求解结果存储到一张表中（称为动态规划表）以免重复计算。因此当没有公共的（交叠的、重叠的）子问题时，动态规划算法并不适用，因为没有必要将一个不再需要的结果存储起来。例如，二分搜索（折半查找）就不具有重叠的子问题性质。

二、从斐波那契数列求解分析动态规划

斐波那契数列（Fibonacci sequence）指的是这样的一组数列：0、1、1、2、3、5、8、13……，即当前数为前两个数值相加，用数学公式表达为：F(0)=0，F(1)=1，F(n)=F(n – 1)+F(n – 2)（n ≥ 2，n ∈ N*）。

使用递归算法求解斐波那契数列：

    public static int fib(int n) {
        if(n<=0) {
            return 0;
        } else if(n==1) {
            return 1;
        } else {
            return fib(n-1) + fib(n-2);
        }
    }

如下图（n = 6 时的斐波那契数列计算过程的递归树形结构），我们为了计算F(6)的值，重复计算了许多遍的F(4)、F(3)……，（这就是重复子问题）这也导致递归算法的效率是十分低下的。

那么，我们是否能采用动态归纳来优化呢？

首先，需要分析“斐波那契数列”问题能否满足动态规划的使用条件。

最优子结构：F(n)的状态可以通过前面的状态推导出来。
无后效性：已经求解的子问题，不会再受到后续决策的影响。
重叠子问题：比如F(6)的求解，对于子问题F(4)进行了重复计算。

因此“斐波那契数列”问题可以使用动态规划去解决。那么具体应该怎么做呢？

基本思路

动态规划本质上是利用历史记录，来避免我们的重复计算。而这些历史记录（动态规划表），我们需要一些变量来保存，一般是用一维数组或者二维数组来保存。下面我们来看看动态规划的基本思路。

确定状态：将原问题划分为若干阶段，每个阶段对应若干个子问题，提取这些子问题的特征（称之为状态）；并且一般是从最后一步从底层一步一步往上逆推的。
确定状态转移方程：寻找每一个状态的可能决策，或者说是各状态间的相互转移方式（用数学的语言描述就是 状态转移方程）。
确定开始以及边界条件。
按顺序求解每一个阶段的问题。

以“斐波那契数列”问题为例：

1. 确定状态：所谓的状态其实就是问题的数学描述。比如定义F(n)表示第n个斐波那契数列的值。

2. 确定状态转移方程式：假如我们不知道斐波那契数列的定义，就只有给定的一组数列（0、1、1、2、3、5、8、13……），我们一般通过观察归纳去总结每个状态之间的关系式。此时，F(n)=F(n-1)+F(n-2) 就是我们归纳出来的状态转移方程，F(n-1)和F(n-2) 就称为F(n)的最优子结构。

3. 确定开始以及边界条件：当有了状态转移方程式后，我们还需要明确初始值。此时，F(0)=0，F(1)=1就是边界条件。

更多可以参考：30分钟弄懂动态规划算法详细讲解(超详细) – it610.com

当以上思路理清后，我们就可以写代码了。

    public static int fib2(int n) {
        if(n <= 1)
            return n;
        // 先创建一个数组来保存历史数据
        int[] dp = new int[n+1];
        // 给出初始值
        dp[0] = 0;
        dp[1] = 1;
        // 通过关系式来计算出 dp[n]
        for(int i = 2; i <= n; i++){
            dp[i] = dp[i-1] + dp[i-2];
        }
        // 把最终结果返回
        return dp[n];
    }

递归的时间复杂度是O(2^n)，而动态规划由于将重复子问题的结果存起来了，因此时间复杂度仅为O(n)。

三、另一个例子

一个机器人位于一个m × n的网格中，机器人每次只能向右或者向下走一步，求机器人达到右下角总共有多少种方式？

1. 确定状态：由于题目要求机器人从左上角到右下角有多少种方式，那么我们就定义dp[i][j]为：当机器人从左上角走到(i, j) 这个位置时，一共有 dp[i] [j] 种路径。那么，dp[m-1][n-1]就是机器人走到右下角的所有方式（注意：数组下标从0开始）

2. 确定状态转移方程：想象以下，机器人要怎么样才能到达 (i, j) 这个位置？由于机器人只能向下走或者向右走，所以有两种方式到达：一种是从 (i-1, j) 这个位置向下走一步到达；另一种是从(i, j – 1) 这个位置向右走一步到达。因为是计算所有可能的步骤，所以是把所有可能走的路径都加起来，所以关系式是 dp[i] [j] = dp[i-1] [j] + dp[i] [j-1]。

3. 确定开始以及边界条件：当机器人处在[0][0]这个位置时，dp[0][0]为0，因为不需要走。当机器人处在边界处，即i=0或者j=0时，此时机器人只可能有一种方式，即一直向下走（j=0）或者一直向右走（i=0）

因此，动态规划代码如下：

    public static int uniquePaths(int m, int n) {
        if(m<=0 || n<=0)
            return 0;
        // 先创建一个数组来保存历史数据
        int[][] dp = new int[m][n];
        // 给出初始值
        dp[0][0] = 0;
        for(int i = 0; i < m; i++){
            dp[i][0] = 1;
        }
        for(int i = 0; i < n; i++){
            dp[0][i] = 1;
        }
        // 通过关系式来计算出 dp[m][n]
        for(int i = 1; i < m; i++) {
            for(int j = 1; j < n; j++) {
                dp[i][j] = dp[i][j-1] + dp[i-1][j];
            }
        }
        return dp[m-1][n-1];
    }

四、参考文档

大厂面试常被问到的动态规划-技术圈

动态规划基础 – OI Wiki

什么是动态规划（Dynamic Programming）？动态规划的意义是什么？ – 知乎

文章出处登录后可见！

已经登录？立即刷新