型方法与大偏差理论

大偏差理论关注概率分布序列的远端尾部的渐近行为,即关注与期望偏差较大,稀有事件的概率。更进一步,该理论关注某些极端事件或尾部事件的概率度量的指数下降。而型方法是研究该问题的强有力工具,Cover 书[1] 中型方法用于计算稀有事件概率,通用信源编码存在性证明,以及假设检验中的应用。

Notations & Definitions

这里 Notation 定义参考文献 2[2],不影响理解

xn 可简记 x

型(type) | 型类(type class)

型:样本数为 n 的经验概率分布 Pxn(a)=|{i:xi=a}|n=N(a|xn)n,aA,xnAn

Pn={Pxn}

型类:序列长度为 n 且型为 P 的序列全体 Tn(P)={xnAn:Pxn=P}

A={0,1},则型的集合为 Pn={(0n,nn),(1n,n1n),(nn,0n)},中每个元素为一种型

型的性质

为便于表示,上标 n 有时省略

Pn 大小

|Pn|=Cn+|A|1|A|1(n+1)|A|

采样结果出现在某一型类概率

若采样独立同分布,服从 P(x) (distribution P on A),则 xn 出现概率仅依赖于其型

Pn(x)=2n(H(Q)+D(QP))

同为上述例子 A={0,1},直观易知出现 010101000111 概率其实一致,只与出现几个 1,几个 0 有关

|500
可以看出,上述定理表明,对于i.i.d.的采样,采样结果可以按照型类来划分,且同一型类下所有采样序列出现的概率一致,与 AEP 有类似之处。

型类大小

1|Pn|2nH(P)|T(P)|2nH(P)

某一型类出现概率

1|Pn|2nD(QP)Pn(T(Q))2nD(QP)

下述定理给出型类陈述的(弱)大数定律。上述定理可知,型的最重要性质为:型的数量为多项式级,而序列数量为指数级,由于每个型类概率以指数依赖于真实分布与型之间的相对熵,因此对于原理真实分布的型类概率依指数衰减。

弱大数定律

X1,X2,,Xnp(x) 为 i.i.d,则

Pr(D(Pn^Pn)δ)|Pn|2nδ

进一步可知,D(Pn^Pn)0 依概率 1 成立

也可用于证明 AEP[1:1]

Sanov 定理

假设南京梅雨季节天气情况为 XPr{X=晴天}=Pr{X=雨天}=12 ,且独立同分布,则采样一段天数 (n 天) 中雨天天数不少于 710n 的概率?

不妨假设晴天/雨天对应 Xi=1/0 ,由中心极限定理可知 1ni=1nXi12
而所求概率为 P{1ni=1nXi710},相比期望是一个比较大的偏差,虽然可以通过 Bernoulli 分布计算出精确概率值(且 n 较大时计算量极大),但大偏差理论更关心这一概率随 n 变化的衰减速度。(更精确地,稀有事件发生概率一般写作 P[Snp∣≥a]=Cneγn,相比修正项 Cn,更关注主要指数项 γ


然而 Chebyshev 不等式只适用于单变量,CLT 以 n 指数衰减。实现在一个合理的相对误差边界内做估计就需要一个大的样本容量 (即 n),因此希望改善截尾概率的估计。

Sanov(萨诺夫)定理

EPn 为全体概率分布的子集,Q 为以概率分布。定义 D(EQ)=minPE{D(PQ)}=D(PQ),若集合 E 为闭包(保证 PE),则

1nlogQn(E)D(PQ)

|150


续上面的例子,可对应概率分布集合 E={(p,1p)|p7/10} ,真实分布 Q=(1/2,1/2) ,可得 P=(7/10,3/10)。因此可估计 P{1ni=1nXi710}2nD(PQ)=20.119n


Draft

|500 |500

参考资料


  1. 《信息论基础》Thomas M. Cover 第 11 章信息论与统计学 ↩︎ ↩︎

  2. Information Theory and Statistics: A Tutorial Chapter 2 ↩︎


© 2024 LiQ :) 由 Obsidian&Github 强力驱动