信息熵
首先问大家一个问题啊。你们说说,数学到底是干什么滴?
其实很多人在中学以后就不怎么看数学了,认为不过是试卷和草稿纸上的玩意,与我们的实际生活无关。
生活是神马?
生活是诗与远方,是感性、丰满的。
语文是与生活相关的,因为我们会读书,会看一些打动心灵的文字;外语是与生活相关的,因为我们会交流,会出国旅行。。。。
what?数学?一堆奇形怪状的符号公式,一看就令人头大,怎么会跟丰富多彩的生活联系在一起呢?
其实数学这门学科,重点突出一个数字。数的含义,就在于量化。
生活中的任何东西都可以量化的,譬如说——信息量。
我们在聊天时会说,信息量很大;或没什么信息量。
很大,具体是多大呢?可以量化吗?请说出个具体数字来?
这可就把人难倒了。
信息到底是什么?服从什么规律?
我不做干巴巴的解释,再举个生活中常见的例子。
小张和小王是两个高中生。小张学习很差,而小王是前几名的尖子生。
当他俩的高考分下来后,如果小王考上了清华,大家都会觉得很正常,里面没什么信息量,因为学习好上清华,天经地义,本来就应该如此的事情。
然鹅,如果是小张考上了清华,这就不一样了,这里面包含的信息量就非常大。怎么说?
因为小张学习那么差,怎么会考上清华呢?把不可能的事情变成可能,这里面就有很多信息量,我们通常称之为里面大有文章,即是此意。
通过这个例子,我们是不是可以得到这样的结论:
越有可能发生的事情,信息量越少,越不可能发生的事情,信息量就越多呢?
可能发生的事情,用什么表示?概率对吧?
如果把信息量用字母I表示,概率用p表示,那它俩是不是就可以建立一个函数关系了?
大家请看下图:
这是个对数函数图像,我们可以用这个公式表示:
为什么要写成这样呢?
我们来回忆一下对数:
符合我们要求的应该是蓝色线,递减的。
但是,我们经常使用的却是自然对数ln,它是递增的,是红色线。
蓝色线和红色线如何转化?记得吗?
因为两者是关于x轴对称的,所以x不变,y取相反数即可。明白了吧?
好啦,你现在已经得到信息函数了。
我们把得到的信息都综合起来,做加权平均,这就是信息熵:
加权平均是神马?期望对吧?
所以我们可以说:信息熵,就是对信息量的期望值。你当然可以这么描述信息熵:
联合熵
还记得联合概率是虾米?
联合,就是一起的意思嘛,一般说X和Y两个人是联合,不是断背山啦。
联合概率,就是一起同时发生事情的概率啦,咦,还真是断臂山哎~~
用符号记做:
好,把联合概率代入信息熵的公式,又得到一个新事物——联合熵。
好吧,有了它,你可以求发生断臂山的信息量啦~~
条件熵
看到条件二字,是不是马上联想到条件概率了?就是——P(Y|X)。
其中X表示条件,Y表示待发生的事情。
那么条件熵呢?是不是把条件概率代进信息熵公式就行了?
差不多吧,不过有点区别:
要注意的是,加权数应该是联合概率,而不是条件概率哦~~
条件熵和联合熵的关系
我们知道,如果A和B两个事件独立,则同时发生的概率是:
P(A,B)=P(A)·P(B)
那我们想知道,A和B同时发生的信息量是多少?
信息量是个对数:
因此,A和B同时发生的信息量为:
再看条件概率:
P(A|B)=P(AB)/P(B)
因此,我们可以推出信息量满足:
而熵就是信息量的加权平均:
把A换成Y,B换成X,然后移项:
H(XY)和H(X,Y)都表示X和Y同时发生的意思。
其实就是记住一点:熵玩的就是对数。
有关熵的题目
搞了半天的符号,咱们还是用个题目来串一下吧。
已知X的先验概率为:
条件概率:
下面求:
1)信息熵H(X)
2)条件熵H(Y|X)
3)联合熵H(XY)
4)信息熵H(Y)
解:
1)直接套公式:
2)先把权重,也就是各个联合概率算出来:
然后套公式:
3)联合熵直接套公式:
4)直接套公式:
得把p(y)的各项值都求出来:
然后套公式: