机器学习中的数学——点估计(三):极大似然估计/最大似然估计(Maximum Likelihood Estimate,MLE)

类别:“机器学习中的数学”总目录
相关文章:
· 点估计(一):基础
点估计(2):矩估计
·点估计(三):极大似然估计/最大似然估计(Maximum Likelihood Estimate,MLE)
·点估计(四):最大后验估计(Maximum Posteriori Probability,MAP)
·距离定义:相对熵(Relative Entropy)/KL散度(Kullback-Leibler Divergence)
·常用概率分布:经验分布(Empirical分布)

最大似然估计是另一种常用的点估计方法来寻找种群的未知参数。对于离散总体X,其分布规律为P%28X%3Dx%3B%20%5Ctheta%29,令%28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29为样本%28X_1%2C%20X_2%2C%20%5Ccdots%2C%20X_n%29取自离散总体X的观测值,我们写出观测值出现的概率,它一般取决于一个或几个参数,用%5Ctheta表示,概率被认为是L%28%5Ctheta%29的函数,用L%28%5Ctheta%29表示,也称为%5Ctheta的似然函数,即:
L%28%5Ctheta%29%3DP%28X_1%3Dx_1%2C%20X_2%3Dx_2%2C%20%5Ccdots%2C%20X_n%3Dx_n%3B%20%5Ctheta%29

求最大似然估计就是求%5Ctheta的估计值%5Chat%7B%5Ctheta%7D%3D%5Chat%7B%5Ctheta%7D%28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29使上式中的L%28%5Ctheta%29最大化。对于连续种群,我们可以将上述联合分布规律替换为样本的联合密度函数,也称为似然函数,可以表示为,设种群X的密度函数f%28x%3B%5Ctheta%29,可知%28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29为总体X的样本%28X_1%2C%20X_2%2C%20%5Ccdots%2C%20X_n%29。观测值,似然函数为:
L%28%5Ctheta%29%3D%5Cprod_%7Bi%3D1%7D%5Enf%28x_i%2C%20%5Ctheta%29

假设总体X具有分布规律P%28X%3Dx%3B%5Ctheta%29或密度函数f%28x%3B%20%5Ctheta%29,已知%5Ctheta%5Cin%5CTheta%5CTheta是参数空间。 %28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29是总体%28X_1%2C%20X_2%2C%20%5Ccdots%2C%20X_n%29的样本%28X_1%2C%20X_2%2C%20%5Ccdots%2C%20X_n%29的观测值。将样本的联合分布规律或联合密度函数视为%5Ctheta的函数,用L%28%5Ctheta%29表示,也称为%5Ctheta的似然函数,则似然函数:
%5Cbegin%7Baligned%7D%20%5Ctext%7B%E7%A6%BB%E6%95%A3%E5%88%86%E5%B8%83%EF%BC%9A%7D%26L%28%5Ctheta%29%3DP%28X_1%3Dx_1%2C%20X_2%3Dx_2%2C%20%5Ccdots%2C%20X_n%3Dx_n%3B%20%5Ctheta%29%5C%5C%20%5Ctext%7B%E8%BF%9E%E7%BB%AD%E5%88%86%E5%B8%83%EF%BC%9A%7D%26L%28%5Ctheta%29%3D%5Cprod_%7Bi%3D1%7D%5Enf%28x_i%2C%20%5Ctheta%29%20%5Cend%7Baligned%7D

满足关系L%28%5Chat%7B%5Ctheta%7D%29%3D%5Cmax_%7B%5Ctheta%5Cin%5CTheta%7DL%28%5Ctheta%29的解%5Chat%7B%5Ctheta%7D称为%5Ctheta的最大似然估计。

L%28%5Ctheta%29是可微函数时,求导是最大似然估计最常用的方法。这时,因为L%28%5Ctheta%29%5Clog%20L%28%5Ctheta%29%5Ctheta处取极值,对数似然函数%5Clog%20L%28%5Ctheta%29的推导更简单,所以我们经常使用以下对数似然方程(群):
%5Cfrac%7B%5Ctext%7Bd%7D%7D%7B%5Ctext%7Bd%7D%5Ctheta%7D%20%5Clog%20L%28%5Ctheta%29%3D0%5Cqquad%20%5Ctext%7B%E6%88%96%7D%5Cqquad%5Cleft%5C%7B%20%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%5Ctheta_1%7D%20%5Clog%20L%20%26%20%3D%20%26%200%20%5C%5C%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%5Ctheta_2%7D%20%5Clog%20L%20%26%20%3D%20%26%200%20%5C%5C%20%5Ccdots%20%5C%5C%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%5Ctheta_n%7D%20%5Clog%20L%20%26%20%3D%20%26%200%20%5Cend%7Baligned%7D%20%5Cright.

最大似然估计的条件比矩估计强,所以最大似然估计一般优于矩估计。最后总结一下最大似然估计的基本思想:在整体分布中,未知参数的可能值有很多。找到使样本出现概率最大化的估计值。该估计值是最大似然估计值。

  1. 写出总体分布中样本的联合分布规律或联合密度函数。
  2. %5Ctheta为自变量,将样本的联合分布规律(或联合密度函数)视为%5Ctheta的函数,即似然函数L%28%5Ctheta%29
  3. 求似然函数L%28%5Ctheta%29的极大点(有时转化为对数似然函数的极大点)%5Cmax_%7B%5Ctheta%5Cin%5CTheta%7DL%28%5Ctheta%29%5Cmax_%7B%5Ctheta%5Cin%5Clog%20%5CTheta%7DL%28%5Ctheta%29
  4. L%28%5Ctheta%29达到最大值时,%5Chat%7B%5Ctheta%7D%3D%5Chat%7B%5Ctheta%7D%28x_1%2C%20x_2%2C%20%5Ccdots%2C%20x_n%29%5Ctheta的最大似然估计量,%5Chat%7B%5Ctheta%7D%3D%5Chat%7B%5Ctheta%7D%28X_1%2C%20X_2%2C%20%5Ccdots%2C%20X_n%29%5Ctheta的最大似然估计量。

一种解释极大似然估计的观点是将它看作最小化训练集上的经验分布%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D和模型分布之间的差异,两者之间的差异程度可以通过KL散度度量:
%5Ctext%7BKL%7D%28%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D%7C%7Cp_%7B%5Ctext%7Bmodel%7D%7D%29%3DE_%7Bx%5Csim%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D%7D%5B%5Clog%20%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D%28x%29%20-%20%5B%5Clog%20p_%7B%5Ctext%7Bmodel%7D%7D%28x%29%5D

左边一项仅涉及数据生成过程,和模型无关。这意味着当训练模型最小化KL散度时,我们只需要最小化:
-E%5B%5Clog%20p_%7B%5Ctext%7Bmodel%7D%7D%28x%29%5D

最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或Softmax分布的负对数似然,但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。

我们可以将最大似然看作使模型分布尽可能地和经验分布%5Chat%7Bp%7D_%7B%5Ctext%7Bdata%7D%7D相匹配的尝试。理想情况下,我们希望匹配真实的数据生成分布p_%7B%5Ctext%7Bdata%7D%7D,但我们无法直接知道这个分布。虽然最优%5Ctheta在最大化似然或是最小化KL散度时是相同的,但目标函数值是不一样的。在实际操作中,我们通常将两者都称为最小化代价函数。因此最大化似然变成了最小化负对数似然或者等价的是最小化交叉熵。将最大化似然看作最小化KL散度的视角在这个情况下是有帮助的,因为已知KL散度最小值是零。

最大似然估计很容易扩展到估计条件概率P%28y%7Cx%3B%20%5Ctheta%29,从而预测给定xy。这实际上是最常见的情况,因为这构成了大多数监督学习的基础。如果X代表所有输入,y代表我们观察到的目标,那么条件最大似然估计为:
%5Ctheta%20%3D%20%5Carg%5Cmax_%5Ctheta%20P%28y%7CX%3B%5Ctheta%29

如果假设样本是独立同分布的,那么:
%5Ctheta%20%3D%20%5Carg%5Cmax_%5Ctheta%20%5Csum_%7Bi%3D1%7D%5Em%5Clog%20P%28y_i%7CX_i%3B%5Ctheta%29

最大似然估计最吸引人的方面是,当样本数为m%5Crightarrow%20%5Cinfty时,就收敛速度而言,它已被证明是最好的渐近估计量。在合适的条件下,最大似然估计是一致的,这意味着当训练样本数趋于无穷大时,参数的最大似然估计会收敛到参数的真实值。这些条件是:

  • 真实分布p_%5Ctext%7Bdata%7D必须在模型族p_%5Ctext%7Bdata%7D%28x%3B%5Ctheta%29中。不然估计没办法恢复p_%5Ctext%7Bdata%7D
  • 真实分布 p_%5Ctext%7Bdata%7D 必须恰好对应于 %5Ctheta 的一个值。否则,在最大似然估计恢复真实分布p_%5Ctext%7Bdata%7D之后,它无法决定在数据生成过程中使用哪个p_%5Ctext%7Bdata%7D

除了最大似然估计,还有其他的归纳准则,其中许多共享一致估计的性质。然而,一致估计的统计效率可能区别很大。某些一致估计可能会在固定数目的样本上获得一个较低的泛化误差,或者等价地,可能只需要较少的样本就能达到一个固定程度的泛化误差。统计效率通常用于有参情况的研究中。在有参情况中,我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。一种度量和真实参数相差多少的方法是计算均方误差的期望,即计算m个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着m的增加而减少,当m较大时,Cramér-Rao下界表明不存在均方误差低于最大似然估计的一致估计。因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计方法。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。

版权声明:本文为博主von Neumann原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/hy592070616/article/details/122990029

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年2月20日 下午10:25
下一篇 2022年2月20日 下午10:42

相关推荐