若P和Q为定义在同一概率空间的两个概率测度,定义P相对于Q的相对熵为
相对熵又称散度、鉴别信息、方向散度、交叉熵、Kullback_leibler距离等。注意,在式(2.15)中,概率分布的维数不限,可以是一维,也可以是多维,也可以是条件概率。
在证明下面的定理前,首先介绍一个在信息论中常用的不等式。
对于任意正实数x,下面不等式成立:
实际上,设f(x)=lnx-x+1,可求得函数的稳定点为x=1,并可求得在该点的二阶导数小于0,从而可得x=1为f(x)取极大值的点,即f(x)=lnx-x+1≤0,仅当x=1时,式(2.16)右边等号成立。令y=1/x,可得1-1/y≤lny,再将y换成x,就得到左边的不等式。
定理2.2 如果在一个共同有限字母表概率空间上给定两个概率测度P(x)和Q(x),那么
仅当对所有x,P(x)=Q(x)时,等式成立。
仅当对所有x,P(x)=Q(x)时,等式成立。
式(2.17)称为散度不等式(divergence inequality),该式说明,一个概率测度相对于另一个概率测度的散度是非负的,仅当两测度相同时,散度为零。散度可以解释为两个概率测度之间的“距离”,即两概率测度不同程度的度量。不过,散度并不是通常意义下的距离,因为它不满足对称性,也不满足三角不等式。(www.daowen.com)
【例2.8】设一个二元信源的符号集为{0,1},有两个概率分布p和q,并且p(0)=1-r,p(1)=r,q(0)=1-s,q(1)=s,求散度D(p‖q)和D(q‖p),并分别求当r=s和r=2s=1/2时散度的值。
解:根据式(2.15),得
当r=s时,有D(p‖q)=D(q‖p)=0
当r=2s=1/2时,有
定理2.3(熵的不增原理)
【证明】设p(y)=∑xp(x)p(y/x),那么
上面利用了散度不等式,仅当X,Y相互独立时,等式成立。
式(2.19)表明,条件熵总是不大于无条件熵,这就是熵的不增原理:在信息处理过程中,已知条件越多,结果的不确定性越小,也就是熵越小。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。