《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

在传感器误差纠正、SLAM感知、轨迹生成与优化等机器人技术中，最优化理论是极其基本又重要的理论。根据朴素贝叶斯定理，机器人的状态估计问题一般可以转换为求最大似然概率的问题，而最大似然概率问题又可以转换到最小二乘问题上。本篇论文探讨了解决非线性最小二乘问题的一些经典优化方法，例如牛顿法、高斯牛顿法、梯度下降法、LM算法、狗腿算法等。这是一篇比较综合且理解起来不难的论文。我就直接通过这篇论文来入门最优化理论吧。当然后续要系统的看一些经典的书籍

一、基本概念

首先，什么是最小二乘问题？

这个问题在高中数学就学过，最经典的例子就是曲线拟合。我们需要找到一条合适的曲线来拟合给定的坐标，通过每个点到曲线的距离的最小平方和来衡量。我们用数学语言来描述它：

%E5%81%87%E8%AE%BE%E6%8B%9F%E5%90%88%E6%9B%B2%E7%BA%BF%E5%87%BD%E6%95%B0%E4%B8%BAM%28b%2Cx%29%20%3D%20b_1e%5E%7Bb_2x%7D%20%2B%20b_3e%5E%7Bb_4x%7D%20%2C%E5%85%B6%E4%B8%AD%20b%3D%5Bb_1%2Cb_2%2Cb_3%2Cb_4%5D%E4%B8%BA%E4%B8%80%E7%BB%84%E5%8F%82%E6%95%B0

%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0%E4%B8%BAf_i%28b%29%20%3D%20y_i%20-%20M%28b%2Cx%29_i%2C%20%E8%B7%9D%E7%A6%BB%E5%B9%B3%E6%96%B9%E5%92%8C%E8%A1%A8%E7%A4%BA%E4%B8%BA%20%5CSigma%20f_i%28b%29%5E2

我们把衡量标准用数学语言描述出来，只要距离平方和越小，拟合效果就越好。通过函数表达式，我们发现曲线拟合问题实质上就是找到参数b的取值使得衡量函数的值最小。通过曲线拟合的例子我们引出最小二乘问题的定义。

$F%28b%29%20%3D%20%5Cfrac%7B1%7D%7B2%7D%20%5Csum_%7Bi%3D1%7D%5Em%28f_i%28b%29%29%5E2$

b%5E%2A%20%3D%20argminF%28b%29

%E5%85%B6%E4%B8%ADF%28b%29%E7%A7%B0%E4%B8%BA%E7%9B%AE%E6%A0%87%E5%87%BD%E6%95%B0%EF%BC%8Cf%28b%29%E7%A7%B0%E4%B8%BA%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0%EF%BC%8Cb%5E%2A%E7%A7%B0%E4%B8%BA%E7%9B%AE%E6%A0%87%E5%80%BC

通过上式我们知道我们的任务就是要找到目标b值，它对应的目标函数最小。我们很自然的想到求一阶导数等于0，求解b。考虑到求导后的式子的美观，所以才在F(b)前加了一个系数项1/2。

非线性和线性最小二乘问题之间的区别？

这里的线性与非线性指的是误差函数f(b)与b的关系，在上面的例子中显然是非线性的。所以是非线性最小二乘问题。

如果我们拟合多项式

f%28b%29%20%3D%20y%20-%20%28b_1x%2Bb_2x%5E2%2Bb_3x%5E3%2B%20....%29

显然这里的f(b)与b就是一个线性关系。这就变成了线性最小二乘问题。

本文主要讨论非线性最小二乘问题

关于最小值和局部最小值

解决最小二乘问题的终极目标就是要找到一个自变量b，使得此处的F(b)最小，我们把这个b叫做全局最小点。然而这并不是能偶很容易办到的事情。
首先，对于复杂的F(b)进行求导不一定能成功。即使可以求导，得到的也只是极值，没有很好的办法证明他同时也是最值。如果直接让F(b)=0，也不一定有普适的求解公式。基于以上问题，人们提出了局部最小值和迭代求解的概念。

局部最小值的思路是要求目标函数值在某一个区域内为最小即可。用数学语言描述如下(从这里以后把b替代成习惯性的x)

%E5%9C%A8%7C%7Cx-x%5E%2A%7C%7C%3C%5Csigma~~~%E5%8C%BA%E9%97%B4%E5%86%85%E6%BB%A1%E8%B6%B3F%28x%5E%2A%29%3CF%28x%29~~~%20%E5%85%B6%E4%B8%AD%5Csigma%E6%98%AF%E4%B8%80%E4%B8%AA%E5%B0%8F%E7%9A%84%E6%AD%A3%E6%95%B0

有了定义后，我们该怎么判断是否是局部最小值呢？我们清楚在局部最小值在小领域内必定有导数等于0.然而导数为零的也可能是局部最大值或者是鞍点（既不是最大值也不是最小值但导数为零），导数等于零处称为驻点。所以我们还需要寻找一个充分条件来判断局部最小值。

假设目标函数F是一个光滑可微的函数，那么他就可以进行泰勒展开

$F%28x%2Bh%29%20%3D%20F%28x%29%20%2B%20h%5ETJ%20%2B%20%5Cfrac%7B1%7D%7B2%7Dh%5ETHh%20~~~%E5%85%B6%E4%B8%ADJ%E4%B8%BA%E9%9B%85%E5%8F%AF%E6%AF%94%E7%9F%A9%E9%98%B5~~H%E4%B8%BA%E6%B5%B7%E5%A1%9E%E7%9F%A9%E9%98%B5$

已知在目标点处J=0，那么上式可以化简为：

$F%28x%5E%2A%2Bh%29%20%3D%20F%28x%5E%2A%29%2B%20%5Cfrac%7B1%7D%7B2%7Dh%5ETHh$

根据局部最小值的定义，我们知道

F%28x%5E%2A%29%20%3CF%28x%5E%2A%2Bh%29

所以我们可以得出结论

$%5Cfrac%7B1%7D%7B2%7Dh%5ETHh%3E0$

也就是说，Hessian矩阵必须是一个正定二次矩阵，才能将驻点判断为局部最小值。我们可以总结出以下规则：

%5Cleft%5C%7B%20%5Cbegin%7Bmatrix%7D%201%20%5C%5C%202%20%5C%5C%203%20%5C%5C%20%5Cend%7Bmatrix%7D%20%5Cright.

%E9%A9%BB%E7%82%B9%20%5Cleft%5C%7B%20%5Cbegin%7Bmatrix%7D%20%E5%B1%80%E9%83%A8%E6%9C%80%E5%B0%8F%E5%80%BC%20%EF%BC%8CH%E6%AD%A3%E5%AE%9A%20%5C%5C%20%E9%9E%8D%E7%82%B9%EF%BC%8CH%E6%97%A2%E4%B8%8D%E6%AD%A3%E5%AE%9A%E4%B9%9F%E4%B8%8D%E8%B4%9F%E5%AE%9A%5C%5C%20%E5%B1%80%E9%83%A8%E6%9C%80%E5%A4%A7%E5%80%BC%EF%BC%8CH%E8%B4%9F%E5%AE%9A%20%5Cend%7Bmatrix%7D%20%5Cright.

2.下降法

下降法是为了保证函数值在迭代解的每一个过程中不断递减。这主要分为两个任务

找到下降的方法
沿递减方向找到一个步长，使函数的值减小

基于以上原理，我们可以将下降法概括为以下过程：

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

假设我们在x0这点做下降操作，我们对这一点处附近进行泰勒展开：

F%28x_0%2B%5Calpha%20h%29%20%3D%20F%28x_0%29%2B%5Calpha%20h%5ETJ%20%EF%BC%8C%E5%85%B6%E4%B8%ADh%E4%B8%BA%E4%B8%8B%E9%99%8D%E6%96%B9%E5%90%91%EF%BC%8C%5Calpha%E4%B8%BA%E6%AD%A5%E9%95%BF

根据下降的要求，我们很容易得到一个寻找下降方向的判据

%E5%8F%AA%E8%A6%81%E6%BB%A1%E8%B6%B3h%5ETJ%3C0%2Ch%E5%8D%B3%E4%B8%BA%E4%B8%8B%E9%99%8D%E6%96%B9%E5%90%91

接下来，我们应该确定步长的值，并关心我们在当前下降方向选择哪个步长值以最小化函数值。用数学语言描述为

%5Calpha%5E%2A%20%3D%20argmin%28F%28x%2B%5Calpha%20h%29%29

求解上面问题的过程被称为线搜索。一般在高斯牛顿法和牛顿法中都默认步长为1.关于线搜索我会再写一篇文章讨论它，我们暂时把注意力放在寻找下降方向上，而寻找下降方法有两个非常经典的算法：牛顿法和梯度下降法。

梯度下降

我们可以用一个公式来衡量函数下降了多少

$%5Clim%5Climits_%7B%5Calpha%5Crightarrow%200%7D%20%5Cfrac%7BF%28x%29-F%28x%2B%5Calpha%20h%29%7D%7B%5Calpha%20%7C%7Ch%7C%7C%7D%20%3D%20-%20%5Cfrac%7B1%7D%7B%7C%7Ch%7C%7C%7D%20h%5ET%20F%5Cprime%28x%29%20%3D%20-%7C%7CF%20%5Cprime%20%28x%29%7C%7C%20cos%20%5Ctheta$

%E5%85%B6%E4%B8%AD%5Ctheta%20%E6%98%AF%E4%B8%8B%E9%99%8D%E6%96%B9%E5%90%91%E4%B8%8E%E6%A2%AF%E5%BA%A6%E5%90%91%E9%87%8F%E7%9A%84%E5%A4%B9%E8%A7%92

从上式中，我们可以得出当夹角为0，也就是下降方向与梯度一致时，下降程度最大。所以我们可以得到下降方向：

h_%7Bsd%7D%20%3D%20-F%20%5Cprime%28x%29

基于上述方法确定下降方向的方法称为梯度下降。下降方向的选择是“最优的”（局部），我们可以将其与准确的线搜索结合起来。此类方法收敛，但最终收敛是线性的并且通常非常缓慢。然而，对于许多问题，该方法在迭代过程的初始阶段具有相当好的性能。

牛顿法

寻找局部最小值点意味着我们需要先找到一阶导等于0的地方。我们把目标点附近进行泰勒展开

F%20%5Cprime%20%28x%2Bh%29%20%3D%20J%20%2B%20Hh

$%E4%BB%A4%E4%B8%8A%E5%BC%8F%E7%AD%89%E4%BA%8E0%EF%BC%8C%E5%8F%AF%E4%BB%A5%E5%BE%97%E5%88%B0%20h_n%3D%20-%5Cfrac%7BJ%7D%7BH%7D$

然后迭代

x%20%3D%20x_%7Blast%7D%20%2B%20h_n

假设Hessian矩阵在迭代过程中都是正定的，它必须满足下面的公式（正定矩阵的性质）

h_n%5ET%20H%20h_n%20%3E%200
也因为
Hh_n%20%3D%20-J
你可以通过替换得到它
h_n%5ETJ%20%3C0

这满足了下降的条件，因此我们可以证明hn是一个下降方向。从以上的证明我们知道牛顿法在临近目标点处且附近的海森矩阵为正定时，收敛效果较好。然而当海森矩阵为负定时，牛顿法并不会让迭代朝着函数值下降的方向进行。

混合方法

基于牛顿法，在Hessian矩阵不是正定的地方就不能再进行降序运算了，所以人们自然认为这种情况下可以改用继续降序的方法。因此提出了一种结合牛顿法和梯度下降法的混合方法。如下所示

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

当Hessian矩阵正时，我们继续用牛顿法进行下降操作。当Hessian矩阵为负时，我们使用梯度下降。这样的混合方法非常有效，但也面临一个问题：复杂函数的Hessian矩阵的求解是一项计算量非常大的工作，所以后面我们将继续讨论以下两个问题。

混合算法需要满足目标点附近的迭代次数，同时保持连续下降
避免陷入 Hessian 矩阵的繁重计算中

3.解决非线性最小二乘问题

回到我们在第 1 章中的讨论，求解非线性最小二乘问题可以用数学语言描述为

$F%28x%29%20%3D%20%5Cfrac%7B1%7D%7B2%7D%20%5Csum_%7Bi%3D1%7D%5Em%28f_i%28x%29%29%5E2%20%3D%20%5Cfrac%7B1%7D%7B2%7D%20f%28x%29%5ETf%28x%29%2C~~f%28x%29%20%3D%20%5Bf_1%28x%29%20~~%20f_2%28x%29%20~~...~~f_i%28x%29%5D$

x%5E%2A%20%3D%20argmin%28F%28x%29%29

牛顿法

我们首先使用牛顿法来解决这个问题，以更好地说明高斯牛顿法和牛顿法的区别。目标点附近一阶导数的泰勒展开

F%20%5Cprime%20%28x%2Bh%29%20%3D%20F%20%5Cprime%28x%29%20%2BF%5Cprime%20%5Cprime%28x%29h

令上式等于0，可以得到牛顿法的下降方向为

$h_n%20%3D%20-%20%5Cfrac%7BF%20%5Cprime%28x%29%7D%7BF%5Cprime%20%5Cprime%28x%29%7D$

F%20%5Cprime%28x%29%20%3D%20J_f%5ET%20f
F%5Cprime%20%5Cprime%28x%29%20%3D%20H_f%5ETf%20%2BJ_f%5ETJ_f

由以上三个式子便可以解出牛顿法的下降方向，但我们之前也提到过求f的海塞矩阵通常是不容易的。

高斯-牛顿法

高斯牛顿法是一种基于对误差函数f进行线性化处理的优化方法。所以我们将误差函数进行一阶泰勒展开

f%28x%2Bh%29%20%3D%20f%28x%29%20%2B%20J_fh

注意这里的雅可比矩阵是对误差函数f的一阶导，和对目标函数F的一阶导是不同的

将上式代入目标函数的泰勒展开式，可得

$F%28x%2Bh%29%20%3D%5Cfrac%7B1%7D%7B2%7D%20f%28x%2Bh%29%5ETf%28x%2Bh%29%20%3D%20F%28x%29%20%2Bh%5ETJ_f%5ETf%2B%5Cfrac%7B1%7D%7B2%7Dh%5ETJ_f%5ETJ_fh$

找下降方向的本质就是：选择什么样的h才能让F(x+h)最小。在寻找方向这个步骤中h是自变量，x并不是自变量。问题就变成了解决下面这个局部最小问题

h_%7Bgn%7D%20%3D%20argmin_h%28F%28x%2Bh%29%29

我们求F(x+h)对h的导数并令它等于0可得

F%20%5Cprime%28x%2Bh%29%20%3D%20J_f%5ETf%2BJ_f%5ET%20J_f%20h%20%3D%200

$h_%7Bgn%7D%20%3D%20-%20%5Cfrac%7BJ_f%5ETf%7D%7BJ_f%5ET%20J_f%7D$

我们之前问过

F%20%5Cprime%28x%29%20%3D%20J_f%5ETf

代入上式可以得到高斯-牛顿法的下降方向，也可以表示为

$h_%7Bgn%7D%20%3D%20-%20%5Cfrac%7BF%20%5Cprime%20%28x%29%7D%7B%20J_f%5ET%20J_f%20%7D$

把它和牛顿法求出的下降方向hn比较一下我们可以发现实际上高斯牛顿法的分母省略了带有海塞矩阵的项。可以理解为高斯牛顿法中做了下面的处理

F%5Cprime%20%5Cprime%28x%29%20%3D%20H_f%5ETf%20%2BJ_f%5ETJ_f

F%5Cprime%20%5Cprime%28x%29%20%5Capprox%20J_f%5ETJ_f

这样做的依据是在目标点附近误差函数接近为0，所以可以省略带海塞矩阵的项，而这样的处理正好避免了计算海塞矩阵的缺点。当然这也表示了这种方法适合在临近目标点附近处的迭代。当初始点距离目标点较远时，这样的方法会失效。

Levenberg-Marquardt算法

LM算法的核心思想是在高斯牛顿法中加入一个阻尼因子来决定迭代时下降的更激进还是更保守。

%28J%5ETJ%20%2B%20%5Cmu%20I%20%29h_%7Blm%7D%20%3D%20-%20J%5ETf~~~%20and~~~%20%5Cmu%20%5Cge%200

这个阻尼因子会根据我们定义的指标改变自己的大小

$%5Crho%20%3D%20%5Cfrac%7BF%28x%29-F%28x%2Bh%29%7D%7BL%280%29-L%28h%29%7D$

p为增益比，L表示的是对原函数的一阶泰勒近似模型，分子表示真实原函数的下降量，分母表示近似模型的下降量。当p>0时，说明近似模型的下降方向和真实函数减小保持一致，可以接受，并将阻尼因子变小。而p<0时，说明这时的下降方向已经与真实情况不一致了，这时需要增大阻尼因子减小下降的力度。规则如下：

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

阻尼因子影响着下降方向的选择。它的取值会让LM算法有时倾向于高斯牛顿法，有时倾向于梯度下降法，实现了混合算法对迭代初始阶段和临近目标点时的要求。

当u趋于0时上式变为

J%5ETJ%20h%20_%7Blm%7D%20%3D%20-J%5ETf%20~~%E9%AB%98%E6%96%AF%E7%89%9B%E9%A1%BF%E6%B3%95

当u较大时

%5Cmu%20h_%7Blm%7D%20%3D%20J%5ETf%20~~~%20%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95

使用步长求解方法，现在我们需要迭代停止的条件。

一阶导接近0

%7C%7CF%20%5Cprime%28x%29%7C%7C%3C%5Cepsilon_1%20~~~%20%5Cepsilon_1%E4%B8%BA%E8%B6%B3%E5%A4%9F%E5%B0%8F%E7%9A%84%E6%AD%A3%E6%95%B0

下降步长足够小

%7C%7Cx_%7Bnew%7D-x%7C%7C%20%5Cleq%20%5Cepsilon_2%28%7C%7Cx%7C%7C%2B%5Cepsilon_2%29

迭代次数限制

k%20%5Cgeq%20k_%7Bmax%7D

整个算法流程如下：

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

狗腿

狗腿法也是一种高斯牛顿法和梯度下降法的混合方法。区别于LM算法中的引入的阻尼因子，狗腿法引入了置信区域的概念。在置信区域内，我们认为泰勒一阶展开模型足够精确。因此当置信区域范围较大时，下降的程度倾向于变大，以快速向目标点进发。当置信区域小的时候，就需要我们减小步长一步一步“小心翼翼”的向前进发。

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

上图是狗腿法选择步长的示意图。其实狗腿法的下降方向与步长选择原则就是尽量x_new 落在置信区域的边缘，尽可能让下降更快且还在置信区域内。

置信区域的大小也是在不停变化的，衡量指标和LM算法的一样。另外迭代停止条件也是一样的。算法流程如下:

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

4.总结

其实这篇论文在后面还讲到了LM算法与拟牛顿法的混合，以及割线版本的LM算法和狗腿法，但LM算法和狗腿法对我来说就已经够用了，所以后面也没再去详细深究了。

下一步主要是用代码实现LM算法，不得不说最近我的代码能力下降的挺多的。表现在看别人代码看不懂，自己写不知道怎么入手，尤其是这些数学算法。所以talk it easy，show me code。

原文链接：https://blog.csdn.net/weixin_50950634/article/details/123180136

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

《 METHODS FOR NON-LINEAR LEASTSQUARES PROBLEMS》论文学习

一、基本概念

2.下降法

3.解决非线性最小二乘问题

4.总结

相关推荐