熵-互信息-熵率

本节定义熵|相对熵|互信息等度量以及常用不等式,这些度量作为后续通信、统计、复杂性和赌博中许多问题的自然答案而出现,也是这些定义的价值所在。

主要内容

H(X)=xXp(x)logp(x) D(pq)=xp(x)logp(x)q(x) I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y) H(X)=Eplog1p(X)H(X,Y)=Eplog1p(X,Y)H(X|Y)=Eplog1p(X|Y)I(X;Y)=Eplogp(X,Y)p(X)p(Y)D(p||q)=Eplogp(X)q(X)

熵 (Entropy)

Entropy

The entropy H(X) of a discrete random variable X is

(2.1)H(X)=xXp(x)logp(x)
H(X)log|X|
X={1with probability p,0with probability 1p.

对一个服从二项分布的随机变量 X

H(X)=plogp(1p)log(1p)=defH(p)

../../PHOTO/熵-互信息-熵率/img-20250523105552889.png|350
可以看出 H(p) 是凹函数。

Joint Entropy & Conditional Entropy

相对熵 (Relative Enrtopy)

相对熵是两个随机分布之间距离的度量。统计学中对应似然比的对数期望。

(2.26-2.27)D(p||q)=xXp(x)logp(x)q(x)=Eplogp(X)q(X)
若已知随机变量真实分布为 p, 但却使用针对分布 q 的编码,那么平均需要 H(p)+D(pq) 比特描述该随机变量。
(2.105)D(λp1+(1λ)p2||λq1+(1λ)q2)λD(p1||q1)+(1λ)D(p2||q2),0λ1

同理利用对数和不等式易证。

互信息 (Mutual Information)

互信息是一个随机变量包含另一个随机变量信息量的度量。也即给定另一随机变量“知识”的条件下,原信息量不确定性的缩减量。

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)p(x)p(y))=Ep(x,y)logp(X,Y)p(X)p(Y).

上式为离散型随机变量情形,微分熵中奖探讨含有连续随机变量的情形。

证明利用 I(X;Y)=D(p(x,y)p(x)p(y))0

【条件互信息(conditional mutual information)】

I(X;Y|Z)=H(X|Z)H(X|Y,Z)=Ep(x,y,z)logp(X,Y|Z)p(X|Z)p(Y|Z)

Chain Rules

(2.14)H(X,Y)=H(X)+H(Y|X)

证明主要利用定义以及 p(x,y)=p(x)p(y|x) 直接推导 (2.15~2.19)

../../PHOTO/熵-互信息-熵率/信息论基础-熵1.png|350

注意 H(Y|X)H(X|Y)

(2.43-2.47)I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)I(X;Y)=H(X)+H(Y)H(X,Y)I(X;Y)=I(Y;X)I(X;X)=H(X) H(X1,X2,,Xn)=i=1nH(Xi|Xi1,,X1)X1,X2,Xnp(x1,x2,xn)

证明利用 p(x1,,xn)=i=1np(xi|xi1,,x1) 与定义递推

(2.62)I(X1,X2,,Xi;Y)=i=1nI(Xi;Y|Xi1,Xi2,,X1)

利用 LHS=H(X1,X2,,Xn)H(X1,X2,,Xn|Y) 以及上述熵的链式法则易证

(2.67)D(p(x,y)q(x,y))=D(p(x)q(x))+D(p(y|x)q(y|x))

其中条件相对熵 D(p(y|x)q(y|x)) 是在 p(x) 上对 p(y|x),q(y|x) 之间相对熵的平均值。

D(p(y|x)||q(y|x))=xp(x)yp(y|x)logp(y|x)q(y|x)=Ep(x,y)logp(Y|X)q(Y|X)

证明思路利用 p(x,y)q(x,y)=p(x)q(x)p(y|x)q(y|x) 进行 log 的拆分易证(2.68~2.71)

(2.96)H(X1,X2,,Xn)i=1nH(Xi)X1,X2,Xnp(x1,x2,xn)

根据上述图例以及定义易证,且当 Xi 相互独立时取等。

常用不等式

Jensen's inequality

If f is a convex function and X is a random variable,

(2.76)Ef(X)f(EX)

Moreover, if f is strictly convex, the equality implies that P{X=EX}=1 i.e., X is a constant.

离散情形下可利用数学归纳法(两点分布利用凸函数定义直接得到)

Log sum inequality

(对数和不等式)对于非负数 a1,a2,an,b1,b2,bn

(2.99)i=1nailogaibi(i=1nai)logi=1naii=1nbi

当且仅当 ai/bi=const 时等号成立。
【证明思路】
不等式等价于

ibijbjaibilogaibiiaijbjlogiaijbj

利用 Jensen's inequality,因为 f(t)=tlogt 严格凸; LHS 即 Ef(X),RHS 即 f(EX) 得证。

Data-processing inequality

If X → Y → Z forms a Markov chain, I(X;Y)I(X;Z)

Fano's inequality

其他

(2.146)Pr(X=X)2H(X)

with equality if and only if X has a uniform distribution.


© 2024 LiQ :)
Obsidian&Github 强力驱动