交叉熵(第六周)

目录

信息量

相对熵(KL散度)

交叉熵

信息量

设f(x):=信息量,假设以下图为例子

则f(阿根廷夺冠)=f(阿根廷进决赛)+f(阿根廷赢了决赛)

f(1/8)=f(1/4)+f(1/2) 此时需要f函数保持自洽,同时也得满足如下的概率公式

p(阿根廷夺冠)=p(阿根廷进决赛)*p(阿根廷赢了决赛)

则f(x1*x2)=f(x1)+f(x2),为了满足这个等式,要求f(x)表达式

f(x):=-log2 x(以2为底)

其中以2为底计算信息量时,是用类属于抛硬币的概率事件来衡量信息量,定义为log是为了满足上方公式的自洽。由于log是单调递增函数,前面的负号让这个函数单调递减,即数数值越小,所含的信息量越大。

总得来说信息量就是一个事件从原来的不确定变得确定。信息量大,其中的难度也就越大。

 

熵和信息量不同,熵不是衡量某一件事件,而是衡量系统里的全部事件。即一个系统从原来的不确定到确定。

即前者系统的熵为信息量之和2,后者为6.65。这是不合适的,熵越大代表着系统的不确定性越高,混乱程度越大,而在中国对法国中,法国赢球概率高,系统确定性应该高,相反,在比利时对阿根廷比赛中,这个系统的不确定性才高即熵应该比较大。所以熵不是直接相加的。应当乘自己的比例。

最后应该如下图所示

 

前者系统熵为1,后者为0.08,说明前者不确定性高,后者确定性高,符合要求。

 

系统的熵就是把单个事件的信息量乘以这个事件所占的比例然后全部加起来。

相对熵(KL散度)

P系统和Q系统分别代表两个概率系统,fq代表Q系统的信息量,fp带代表P系统的信息量。

 

P在前代表的是以P为基准,去考虑P和Q相差有多少。

下图为KL散度公式的定义。

 

(1)代表某一个事件在系统Q中的信息量减去对应在P系统中的信息量,这个差值,最后求整体的期望。当等于0的话就说明P和Q是完全相等的。直观上理解就是Q想要达到和P一样的分布的话,他们之间还差多少信息量。

(2)是(1)的展开,在上文f(x)=-log2x(以2为底)

(3)是(2)的展开,在(3)公式的后半部分就是P系统的熵,前面是P的交叉熵H(P,Q)。当交叉熵数值小于P系统的熵时,KL散度距离0越远,对于P和Q系统二者越不像。当交叉熵数值大于P系统的熵时,KL散度距离0也越远,对于P和Q系统二者也越不像。

通过吉布斯不等式可以证明KL散度是大于等于0的,当Q和P相等时等于0,Q和P不相等时大于0。需要让Q和P最接近时,需要KL散度越接近0,则让交叉熵越小。所以(3)等式的前半部分可以作为损失函数。

交叉熵

神经网络中的应用。

 

在判断是否是猫的神经网络中,只有两种情况,是猫与不是猫。xi是神经网络的输入,yi是神经网络的输出。

 交叉熵是用信息量和熵,以2为底的log代表最后计算出来的单位是比特,而在最大似然估计法中的log是习惯于去做连加,不习惯连乘而引入的。虽然二者在数学上计算出的方式是一样的,但以物理的角度来看,一个有量纲,一个没有。交叉熵的负号是写在定义里的,而极大似然估计法的负号是为了符合一般习惯,将原本应当求极大值,最后变成求极小值。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
上一篇 2022年5月17日 上午11:59
下一篇 2022年5月17日 下午12:03

相关推荐

本站注重文章个人版权,不会主动收集付费或者带有商业版权的文章,如果出现侵权情况只可能是作者后期更改了版权声明,如果出现这种情况请主动联系我们,我们看到会在第一时间删除!本站专注于人工智能高质量优质文章收集,方便各位学者快速找到学习资源,本站收集的文章都会附上文章出处,如果不愿意分享到本平台,我们会第一时间删除!