机器学习中的数学——点估计（三）：极大似然估计/最大似然估计（Maximum Likelihood Estimate，MLE）

类别：“机器学习中的数学”总目录
相关文章：
· 点估计（一）：基础
点估计（2）：矩估计
·点估计（三）：极大似然估计/最大似然估计（Maximum Likelihood Estimate，MLE）
·点估计（四）：最大后验估计（Maximum Posteriori Probability，MAP）
·距离定义：相对熵（Relative Entropy）/KL散度（Kullback-Leibler Divergence）
·常用概率分布：经验分布（Empirical分布）

最大似然估计是另一种常用的点估计方法来寻找种群的未知参数。对于离散总体，其分布规律为 P%28X%3Dx%3B%20%5Ctheta%29 ，令 %28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29 为样本取自离散总体的观测值，我们写出观测值出现的概率，它一般取决于一个或几个参数，用表示，概率被认为是 L%28%5Ctheta%29 的函数，用表示，也称为的似然函数，即：
L%28%5Ctheta%29%3DP%28X_1%3Dx_1%2C%20X_2%3Dx_2%2C%20%5Ccdots%2C%20X_n%3Dx_n%3B%20%5Ctheta%29

求最大似然估计就是求 %5Ctheta 的估计值 %5Chat%7B%5Ctheta%7D%3D%5Chat%7B%5Ctheta%7D%28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29 使上式中的 L%28%5Ctheta%29 最大化。对于连续种群，我们可以将上述联合分布规律替换为样本的联合密度函数，也称为似然函数，可以表示为，设种群的密度函数 f%28x%3B%5Ctheta%29 ，可知为总体的样本。观测值，似然函数为：
L%28%5Ctheta%29%3D%5Cprod_%7Bi%3D1%7D%5Enf%28x_i%2C%20%5Ctheta%29

假设总体具有分布规律或密度函数，已知和是参数空间。是总体的样本的观测值。将样本的联合分布规律或联合密度函数视为的函数，用表示，也称为的似然函数，则似然函数：

满足关系的解称为的最大似然估计。

当 L%28%5Ctheta%29 是可微函数时，求导是最大似然估计最常用的方法。这时，因为和 %5Clog%20L%28%5Ctheta%29 在处取极值，对数似然函数的推导更简单，所以我们经常使用以下对数似然方程（群）：
$%5Cfrac%7B%5Ctext%7Bd%7D%7D%7B%5Ctext%7Bd%7D%5Ctheta%7D%20%5Clog%20L%28%5Ctheta%29%3D0%5Cqquad%20%5Ctext%7B%E6%88%96%7D%5Cqquad%5Cleft%5C%7B%20%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%5Ctheta_1%7D%20%5Clog%20L%20%26%20%3D%20%26%200%20%5C%5C%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%5Ctheta_2%7D%20%5Clog%20L%20%26%20%3D%20%26%200%20%5C%5C%20%5Ccdots%20%5C%5C%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%5Ctheta_n%7D%20%5Clog%20L%20%26%20%3D%20%26%200%20%5Cend%7Baligned%7D%20%5Cright.$

最大似然估计的条件比矩估计强，所以最大似然估计一般优于矩估计。最后总结一下最大似然估计的基本思想：在整体分布中，未知参数的可能值有很多。找到使样本出现概率最大化的估计值。该估计值是最大似然估计值。

写出总体分布中样本的联合分布规律或联合密度函数。
以为自变量，将样本的联合分布规律（或联合密度函数）视为的函数，即似然函数。
求似然函数的极大点（有时转化为对数似然函数的极大点）或。
当达到最大值时，是的最大似然估计量，是的最大似然估计量。

一种解释极大似然估计的观点是将它看作最小化训练集上的经验分布 %5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D 和模型分布之间的差异，两者之间的差异程度可以通过KL散度度量：
%5Ctext%7BKL%7D%28%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D%7C%7Cp_%7B%5Ctext%7Bmodel%7D%7D%29%3DE_%7Bx%5Csim%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D%7D%5B%5Clog%20%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D%28x%29%20-%20%5B%5Clog%20p_%7B%5Ctext%7Bmodel%7D%7D%28x%29%5D

左边一项仅涉及数据生成过程，和模型无关。这意味着当训练模型最小化KL散度时，我们只需要最小化：
-E%5B%5Clog%20p_%7B%5Ctext%7Bmodel%7D%7D%28x%29%5D

最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或Softmax分布的负对数似然，但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如，均方误差是经验分布和高斯模型之间的交叉熵。

我们可以将最大似然看作使模型分布尽可能地和经验分布 %5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D 相匹配的尝试。理想情况下，我们希望匹配真实的数据生成分布 p_%7B%5Ctext%7Bdata%7D%7D ，但我们无法直接知道这个分布。虽然最优 %5Ctheta 在最大化似然或是最小化KL散度时是相同的，但目标函数值是不一样的。在实际操作中，我们通常将两者都称为最小化代价函数。因此最大化似然变成了最小化负对数似然或者等价的是最小化交叉熵。将最大化似然看作最小化KL散度的视角在这个情况下是有帮助的，因为已知KL散度最小值是零。

最大似然估计很容易扩展到估计条件概率 P%28y%7Cx%3B%20%5Ctheta%29 ，从而预测给定的。这实际上是最常见的情况，因为这构成了大多数监督学习的基础。如果代表所有输入，代表我们观察到的目标，那么条件最大似然估计为：
%5Ctheta%20%3D%20%5Carg%5Cmax_%5Ctheta%20P%28y%7CX%3B%5Ctheta%29

如果假设样本是独立同分布的，那么：
%5Ctheta%20%3D%20%5Carg%5Cmax_%5Ctheta%20%5Csum_%7Bi%3D1%7D%5Em%5Clog%20P%28y_i%7CX_i%3B%5Ctheta%29

最大似然估计最吸引人的方面是，当样本数为 m%5Crightarrow%20%5Cinfty 时，就收敛速度而言，它已被证明是最好的渐近估计量。在合适的条件下，最大似然估计是一致的，这意味着当训练样本数趋于无穷大时，参数的最大似然估计会收敛到参数的真实值。这些条件是：

真实分布必须在模型族中。不然估计没办法恢复
真实分布必须恰好对应于的一个值。否则，在最大似然估计恢复真实分布之后，它无法决定在数据生成过程中使用哪个。

除了最大似然估计，还有其他的归纳准则，其中许多共享一致估计的性质。然而，一致估计的统计效率可能区别很大。某些一致估计可能会在固定数目的样本上获得一个较低的泛化误差，或者等价地，可能只需要较少的样本就能达到一个固定程度的泛化误差。统计效率通常用于有参情况的研究中。在有参情况中，我们的目标是估计参数值（假设有可能确定真实参数），而不是函数值。一种度量和真实参数相差多少的方法是计算均方误差的期望，即计算个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着的增加而减少，当较大时，Cramér-Rao下界表明不存在均方误差低于最大似然估计的一致估计。因为这些原因（一致性和统计效率），最大似然通常是机器学习中的首选估计方法。当样本数目小到会发生过拟合时，正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。

原文链接：https://blog.csdn.net/hy592070616/article/details/122990029

机器学习中的数学——点估计（三）：极大似然估计/最大似然估计（Maximum Likelihood Estimate，MLE）

相关推荐