理解“熵”

1.信息量

在理解“熵”之前,首先要理解“信息量”。一条信息是否有信息,关键是看它是否带来确定性,衡量信息量,看它带来的确定性程度,即信息(一个事件)从原来的不确定到确定。

如何定义信息量?

设信息量xf\left ( x \right )

若某信息x与信息x_{1}x_{2}同时等价,则可认为:

f(x)=f\left ( x_{1} \right )+f\left ( x_{2} \right )

信息x带来的确定性是信息x_{1}x_{2}同时发生的确定性(概率)相等,即:p(x)=P(x_{1})\cdot P(x_{2})

所以定义的信息量应该满足:f\left ( x_{1}\cdot x_{2} \right )=f\left ( x_{1} \right )+f\left ( x_{2} \right )

所以我们可以将信息量定义为:f\left ( x \right ):= -log2^{x}

有几点要理解:

1)定义符号“:=”,不是“=”;

2)为什么是log呢?因为这里是“定义”,你可以随便定义,所以本身是没什么意义的,但用了log我们可以变相乘为相加,所以刚刚好让f\left ( x_{1}\cdot x_{2} \right )=f\left ( x_{1} \right )+f\left ( x_{2} \right )能成立。;

3)为什么前面加一个“-”?因为一个事件发生了,它之前的概率越小,信息量就应该越多。而log函数是单调递增函数,所以前面加一个负号”-“,使得其单调递减;

4)为什么以“2”为底呢?可以e为底,可以2为底。我们以2为底,如果以2为底去计算信息量,就相当于用“抛硬币”去衡量信息量,比如:A、B、C、D四位同学参加比赛,信息“A夺得了冠军”的信息量为:-log2^{\frac{1}{4}}=2,信息由原来的不确定性(1/4)变成了确定性(1),计算出信息量为2。以2为底,计算出来的单位是“比特”。

2.熵

信息量衡量信息由原来的不确定性变到确定性的难度有多大,信息量大,难度就高。比如:一个班有128人,小王成绩较差,考第一名的概率是1/128,小张成绩较好,考第一名的概率是1/8。则信息“小王考试得了第一名”的信息量就是6比特,信息“小张考试得了第一名”的信息量就是3比特。

与熵类似,熵不是衡量某个事件,而是用来衡量整个系统中的所有事件,即一个系统从最初的不确定性转变为确定性的难度。

假设有两个系统:

第一个系统A、B两位同学成绩相当,夺得第一名的概率相同都是1/2;则信息量分别为:1、1

第二个系统C、D两位成绩相差大,夺得第一名的概率是1/128、1/8,则信息量分别为:7、3

如果系统的熵为系统里各信息量直接相加对吗?肯定不对,如果第一个系统的熵为各个事件信息量相加(1+1=2)、第二个系统的熵为系统各个事件信息量相加(7+3=10),则第二个系统的熵大于第一个系统的熵。熵越大,代表系统的不确定性越大,混乱程度越大,但是我们的例子中显然第一个系统的不确定性才高,所以系统的熵不能直接用系统里各个事件信息量直接相加!

所以单个事件贡献给系统的信息量还需乘以一个比例,所以第二给系统单个事件贡献给系统的信息量为:-\frac{1}{128}log2^{\frac{1}{128}}-\frac{1}{8}log2^{\frac{1}{8}},这样,第一个系统的熵是1,比第二个系统的熵大。

因此,熵可以定义为系统的期望,

H(P):=\sum_{i=1}^{n}p_{i}(-log2^{p_{i}})=-\sum_{i=1}^{n}p_{i}(log2^{p_{i}})

版权声明:本文为博主wdd_100原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/wdd_100/article/details/123031886

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年2月21日 下午2:56
下一篇 2022年2月21日 下午3:12

相关推荐