python实现共轭梯度算法

1. 共轭梯度算法介绍

共轭梯度(Conjugate Gradient)方法是一种迭代算法,可用于求解无约束的优化问题,例如能量最小化。常见的优化算法还有梯度下降法,相比于梯度下降法,共轭梯度法具有收敛更快,以及算法稳定性更好的优点。
梯度下降法和共轭梯度法
从上图可以看出来,梯度下降法优化过程中函数是沿着梯度的反方向逐步优化,后一步优化的结果会对前一步的优化结果造成影响,收敛较慢。而共轭梯度方法每一步的优化方向与前一步的优化方向是共轭的,因此并不会对前一步的优化结果造成影响,同时优化过程中保证在每一个方向上函数优化到最小值,从而保证沿着这些共轭方向优化完成后,函数能够达到全局最小值点。具体解释可以参考这篇文章:https://zhuanlan.zhihu.com/p/338838078

2. 实现共轭梯度法的两个重要组成部分

1.共轭方向的确定

共轭梯度法中新的共轭方向仅由上一步的梯度、新梯度和上一步的优化方向决定,即:
%5Cvec%7Bd%7D_%7Bk%2B1%7D%3D-%5Cvec%7Bg%7D_%7Bk%2B1%7D%2B%5Cbeta_k%5Cvec%7Bd%7D_k
其中%5Cbeta_k的定义方式有很多种,常用的有FR和PRP两种:
%5Cbeta_k%5E%7BFR%7D%3D%5Cfrac%7Bg_%7Bk%2B1%7D%5ETg_%7Bk%2B1%7D%7D%7Bg_k%5ETg_k%7D%3D%5Cfrac%7B%7C%5Cvec%7Bg%7D_%7Bk%2B1%7D%7C%5E2%7D%7B%7C%5Cvec%7Bg%7D_k%7C%5E2%7D
%5Cbeta_k%5E%7BPRP%7D%3D%5Cfrac%7Bg_%7Bk%2B1%7D%5ET%28g_%7Bk%2B1%7D-g_k%29%7D%7Bg_k%5ETg_k%7D%3D%5Cfrac%7B%5Cvec%7Bg%7D_%7Bk%2B1%7D%5Ccdot%28%5Cvec%7Bg%7D_%7Bk%2B1%7D-%5Cvec%7Bg%7D_k%29%7D%7B%7C%5Cvec%7Bg%7D_k%7C%5E2%7D

2.方向优化步长的确定

当优化方向确定之后,需要利用线性搜索技术确定优化的步长%5Calpha_%7Bmin%7D,即是寻找α>0使得
f%28%5Cvec%7Bx%7D%2B%5Calpha_%7Bmin%7D%5Cvec%7Bd%7D%29%3Dminf%28%5Cvec%7Bx%7D%2B%5Calpha%5Cvec%7Bd%7D%29
线搜索技术包含两大类,即精确线搜索技术和非精确线搜索技术,详见这篇文章:https://www.longzf.com/optimization/2/line_search/
精确线搜索技术包括牛顿法和二分法。由于以下代码中使用的线搜索技术是牛顿法,下面对牛顿法进行简单介绍。
牛顿法用于解决函数的最小值和最大值问题。函数的极值点应该有f%27%28%5Calpha%29%3D0。将函数展开到二阶泰勒展开后,可以得到α的迭代公式:
%5Calpha_%7Bk%2B1%7D%20%3D%20%7B%5Calpha%7D_k%20-%20%5Cfrac%7Bf%27%28%5Calpha_k%29%7D%7Bf%27%27%28%5Calpha_k%29%7D

note

由于数值计算过程中使用了差分法,这里简要列出一阶和二阶微分中使用的差分表达式:
f%27%28x%29%5Capprox%5Cfrac%7Bf%28x%2B%5Cdelta%20%29-f%28x-%5Cdelta%29%7D%7B2%5Cdelta%7D
f%27%27%28x%29%5Capprox%5Cfrac%7Bf%28x%2B%5Cdelta%29%2Bf%28x-%5Cdelta%29-2f%28x%29%7D%7B%5Cdelta%5E2%7D
其中%5Cdelta是少量。

三、共轭梯度算法优化过程

  1. 计算初始梯度值%5Cvec%7Bg%7D_0和优化方向%5Cvec%7Bd%7D_0
    %5Cvec%7Bg%7D_0%3D%5Cvec%7B%5Cnabla%7Df%28%5Cvec%7Bx%7D_0%29
    %5Cvec%7Bd%7D_0%20%3D%20-%5Cvec%7Bg%7D_0
  2. 如果%5Cvec%7Bg%7D_k%3C%5Cvec%7B%5Cepsilon%7D,退出迭代过程,否则执行以下步骤
  3. 使用线性搜索算法(牛顿法)找到使 minf%28%5Cvec%7Bx%7D_k%2B%5Calpha%5Cvec%7Bd%7D_k%29 的步长 α,并更新 %5Cvec%7Bx%7D_%7Bk%2B1%7D
    %5Cvec%7Bx%7D_%7Bk%2B1%7D%3D%5Cvec%7Bx%7D_k%2B%5Calpha%5Cvec%7Bd%7D_k
  4. 计算新梯度
    %5Cvec%7Bg%7D_%7Bk%2B1%7D%3D%5Cvec%7B%5Cnabla%7Df%28%5Cvec%7Bx%7D_%7Bk%2B1%7D%29
  5. 根据前面提到的FR公式或PRP公式计算新的组合系数
  6. 计算新的共轭方向:
    %5Cvec%7Bd%7D_%7Bk%2B1%7D%3D-%5Cvec%7Bg%7D_%7Bk%2B1%7D%2B%5Cbeta_k%5Cvec%7Bd%7D_k
  7. 重复执行第2步

四、python实现共轭梯度算法

这里使用的测试函数的形式是:
f%28x%2C%20y%29%3D%283x-2y%29%5E2%2B%28x-1%29%5E4
可以看到函数存在最小值点(1, 1.5),以下是实现的python代码。

1.FR-CG

############共轭梯度算法#############
import numpy as np
import matplotlib.pyplot as plt
def testFun(x, y):
    t = 3.0*x - 2.0*y
    t1 = x - 1.0
    z = np.power(t, 2) + np.power(t1, 4)
    return z

def gradTestFun(x, y):
    '''
    求函数的梯度
    '''
    delta_x = 1e-6      #x方向差分小量
    delta_y = 1e-6      #y方向差分小量
    grad_x = (testFun(x+delta_x, y)-testFun(x-delta_x, y))/(2.0*delta_x)
    grad_y = (testFun(x, y+delta_y)-testFun(x, y-delta_y))/(2.0*delta_y)
    grad_xy = np.array([grad_x, grad_y])
    return grad_xy

def getStepLengthByNewton(array_xy, array_d):
    '''
    采用牛顿法,精确线性搜索确定移动步长
    '''
    a0 = 1.0           #初始猜测值
    e0 = 1e-6          #退出搜索循环的条件
    delta_a = 1e-6     #对a作差分的小量
    while(1):
        new_a = array_xy + a0*array_d
        new_a_l = array_xy + (a0-delta_a)*array_d
        new_a_h = array_xy + (a0+delta_a)*array_d
        diff_a0 = (testFun(new_a_h[0], new_a_h[1]) - testFun(new_a_l[0], new_a_l[1]))/(2.0*delta_a)
        if np.abs(diff_a0) < e0:
            break
        ddiff_a0 = (testFun(new_a_h[0], new_a_h[1]) + testFun(new_a_l[0], new_a_l[1]) - 2.0*testFun(new_a[0], new_a[1]))/(delta_a*delta_a)
        a0 = a0 - diff_a0/ddiff_a0
    return a0

def plotResult(array_xy_history):
    x = np.linspace(-1.0, 4.0, 100)
    y = np.linspace(-4.0, 8.0, 100)
    X, Y = np.meshgrid(x, y)
    Z = testFun(X, Y)
    plt.figure(dpi=300)
    plt.xlim(-1.0, 4.0)
    plt.ylim(-4.0, 8.0)
    plt.xlabel("x")
    plt.ylabel("y")
    plt.contour(X, Y, Z, 40)
    plt.plot(array_xy_history[:,0], array_xy_history[:,1], marker='.', ms=10)
    xy_count = array_xy_history.shape[0]
    for i in range(xy_count):
        if i == xy_count-1:
            break
        dx = (array_xy_history[i+1][0] - array_xy_history[i][0])*0.6
        dy = (array_xy_history[i+1][1] - array_xy_history[i][1])*0.6
        plt.arrow(array_xy_history[i][0], array_xy_history[i][1], dx, dy, width=0.1)

def mainFRCG():
    '''
    使用CG算法优化,用FR公式计算组合系数
    '''
    ls_xy_history = []                           #存储初始坐标的迭代结果
    xy0 = np.array([4.0, -2.0])                   #初始点
    grad_xy = gradTestFun(xy0[0], xy0[1])
    d = -1.0*grad_xy                             #初始搜索方向
    e0 = 1e-6                                    #迭代退出条件
    xy = xy0
    while(1):
        ls_xy_history.append(xy)
        grad_xy = gradTestFun(xy[0], xy[1])
        tag_reach = np.abs(grad_xy) < e0
        if tag_reach.all():
            break
        step_length = getStepLengthByNewton(xy, d)
        xy_new = xy + step_length*d
        grad_xy_new = gradTestFun(xy_new[0], xy_new[1])
        b = np.dot(grad_xy_new, grad_xy_new)/np.dot(grad_xy, grad_xy)       #根据FR公式计算组合系数
        d = b*d - grad_xy_new
        xy = xy_new
    array_xy_history = np.array(ls_xy_history)
    plotResult(array_xy_history)
    return array_xy_history

以下是运行结果
python实现共轭梯度算法

最终得到的最小值的坐标为[ 1.00113664, 1.50170496]
营业时间:
python实现共轭梯度算法

2.PRP-CG

换用PRP公式计算只需要将上面求解组合系数部分的代码作少量修改即可,代码为:

def mainPRPCG():
    '''
    使用CG算法优化,用PRP公式计算组合系数
    '''
    ls_xy_history = []
    xy0 = np.array([4.0, -2.0])
    grad_xy = gradTestFun(xy0[0], xy0[1])
    d = -1.0*grad_xy
    e0 = 1e-6
    xy = xy0
    while(1):
        ls_xy_history.append(xy)
        grad_xy = gradTestFun(xy[0], xy[1])
        tag_reach = np.abs(grad_xy) < e0
        if tag_reach.all():
            break
        step_length = getStepLengthByNewton(xy, d)
        xy_new = xy + step_length*d
        grad_xy_new = gradTestFun(xy_new[0], xy_new[1])
        b = np.dot(grad_xy_new, (grad_xy_new - grad_xy))/np.dot(grad_xy, grad_xy)    #根据PRP公式计算组合系数
        d = b*d - grad_xy_new
        xy = xy_new
    array_xy_history = np.array(ls_xy_history)
    plotResult(array_xy_history)
    return array_xy_history

运行结果是:
python实现共轭梯度算法
得到的最小值的坐标是[ 1.00318321, 1.50477481]
营业时间:
python实现共轭梯度算法

3.GD

最后将梯度下降法的优化结果写在一起进行比较。以下是实现代码:

def mainGD():
    '''
    使用梯度下降法计优化函数
    '''
    ls_xy_history = []
    xy0 = np.array([4.0, -2.0])
    ls_xy_history.append(xy0)
    grad_xy = gradTestFun(xy0[0], xy0[1])
    alpha = 1e-3      
    e0 = 1e-3
    xy = xy0
    while(1):
        tag_reach = np.abs(grad_xy)<e0
        if tag_reach.all():
            break
        xy = xy - alpha*grad_xy
        grad_xy = gradTestFun(xy[0], xy[1])
        ls_xy_history.append(xy)
    array_xy_history = np.array(ls_xy_history)
    plotResult(array_xy_history)
    return array_xy_history

运行结果是:
python实现共轭梯度算法
得到的最小值坐标是[ 0.9185095 , 1.37763925]
运行时是:
python实现共轭梯度算法

五、总结

对比可以发现,CG算法在计算的速度和准确度上都相较于GD算法有一定的优势。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年3月23日 下午8:42
下一篇 2022年3月23日

相关推荐