信息熵-科普123

信息熵

生物科学2023-02-02 19:56:57百科

信息熵

[拼音]：xinxishang

[外文]：information entropy

信源的平均不定度。在信息论中信源输出是随机量，因而其不定度可以用概率分布来度量。记 H(X)＝H(P₁，P₂，…，P_n)＝公式符号 P(x_i)logP(x_i)，这里P(x_i)，i＝1，2，…，n为信源取第i个符号的概率。P(x_i)=1，H(X)称为信源的信息熵。

熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值，称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出，对任何已知孤立的物理系统的演化，热熵只能增加，不能减少。然而这里的信息熵则相反，它只能减少，不能增加。所以热熵和信息熵互为负量。且已证明，任何系统要获得信息必须要增加热熵来补偿，即两者在数量上是有联系的。

可以从数学上加以证明，只要H(X)满足下列三个条件：

（1）连续性：H(P，1－P)是P的连续函数(0≤P≤1)；

（2）对称性：H(P₁，…，P_n)与P₁，…，P_n的排列次序无关；

（3）可加性：若P_n＝Q₁+Q₂＞0，且Q₁，Q₂≥0，则有H(P₁，…，P_n-1，Q₁，Q₂)＝H(P₁，…，P_n-1)+P_nH 公式符号；则一定有下列唯一表达形式：

H(P₁，…，P_n)＝-C 公式符号 P(x_i)logP(x_i)

其中C为正整数，一般取C＝1，它是信息熵的最基本表达式。

信息熵的单位与公式中对数的底有关。最常用的是以2为底，单位为比特(bit)；在理论推导中常采用以e为底，单位为奈特(Nat)；还可以采用其他的底和单位，并可进行互换。

信息熵除了上述三条基本性质外，还具有一系列重要性质，其中最主要的有

（1）非负性：H(P₁，…，P_n)≥0；

（2）确定性：H(1，0)＝H(0，1)＝H(0，1，0，…)＝0；

（3）扩张性：

公式符号 H_n-1(P₁，…，P_n-ε，ε)＝H_n(P₁，…，P_n)；

（4）极值性：

公式符号 P(x_i)logP(x_i)≤P(x_i)logQ(x_i)；

这里公式符号 Q(x_i)＝1；

（5）上凸性：

H[λP +(1-λ)Q]＞λH(P)+(1-λ)H(Q)，

式中0＜λ＜1。

最简单的二元信源的信息熵性质如图所示。

当实际信源用随机序列X来表示时，它的熵可以直接推广为：公式符号。但对连续信源则不能进行类似的推广。因为这样就必然会出现无限大量。1948年C.E.仙农建议用概率密度p(x)来定义H(X)，

这样定义的熵虽然仍具有可加性等熵的主要性质，但已不具有非负性，因此也不再代表连续信源的信息量。但由于在大量实际问题中需要的仅是两个熵的差值，这时它仍具有信息量特征的非负性。因此，连续熵H(X)具有相对性，又称为相对熵。它与力学中的势能概念相仿。

从理论上看，仙农对连续熵H(X)的定义是不完善的。1951年S.库尔伯克研究信息论在统计学中的应用时，引入了信息变差的概念。从一种概率密度p₀(x)转移到另一种概率密度p(x)的信息变差I(p₀，p)为

其中要求p(x)对p₀(x)绝对连续。

若P₀(x)是具有最大熵H₀(X)的概率分布，则信息变差I(P₀，P)=H₀(X)-H(X)，所以一般情况下的信息熵H(X)可表示为:H(X)=H₀(X)-I(P₀，P)。即信息熵可理解为最大熵与信息变差之间的差值。由于它对离散熵和连续熵都适用，从信息变差出发就能使离散熵和连续熵有统一的含义，并可以使连续熵的定义建立在更为合理的基础上。