Minimal Sufficiency
充分统计量做到了“用已知刻画未知”。进一步,如何使充分统计量更简单,更精细 。
A sufficient statistic T is minimal if for every sufficient statistic T ′ , T is a function of T ′ . Equivalently, T is minimal if for every sufficient statistic T ′ , T ( x ) = T ( y ) whenever T ′ ( x ) = T ′ ( y ) .
极小充分统计量说明任何一个充分统计量 T ′ 都可以通过函数映射得到 T (这个函数就是 ψ : T ′ ( x ) → T ( x ) ),说明 T 是 minimal 的。
设样本联合密度函数为 p ( x ; θ ) ,如果对统计量 T 有 ∀ x , y ∈ X ,
p ( x ; θ ) = C ( x , y ) p ( y ; θ ) ⟺ T ( x ) = T ( y ) ,则 T 为极小充分统计量
T is sufficient:
设 T ( X ) 为 T 的值域,A t = { x : T ( x ) = t } 为原像集合,x t 为 A t 中任一取值,则 ∀ y ∈ X ,有 y ∈ A T ( y ) , x T ( y ) ∈ A T ( y ) 且 T ( y ) = T ( x T ( y ) )
由定理假设可以推出
p ( y ; θ ) = C ( y , x T ( y ) ) p ( x T ( y ) ; θ ) = h ( y ) g θ ( T ( y ) ) 根据 NFFC 定理说明 T 是充分统计量。
T is minimal:
要证 T 极小充分,可根据定义证明 T ′ ( x ) = T ′ ( y ) ⟶ T ( x ) = T ( y ) 。 考虑任意充分统计量 T ′ ,有 p ( x ; θ ) = g ~ θ ( T ′ ( x ) ) h ~ ( x )
若 T ′ ( x ) = T ′ ( y ) ,则
p ( x ; θ ) = g ~ θ ( T ′ ( x ) ) h ~ ( x ) = g ~ θ ( T ′ ( y ) ) h ~ ( y ) h ~ ( x ) h ~ ( y ) = p ( y ; θ ) C ( x , y ) 因此根据定理假设, T ( x ) = T ( y ) ,T 是极小统计
极小充分统计可通过极小指数族得到
对于任意极小 s 维指数族,统计量 ( ∑ i T 1 ( X i ) , … , ∑ i T s ( X i ) ) 是极小统计
Curved Exponential Family
设 X 1 , … , X n ∼ i i d N ( σ , σ 2 ) , θ = σ > 0 ,则
p ( x ; θ ) p ( y ; θ ) = exp ( − 1 2 σ 2 ∑ i x i 2 + σ σ 2 ∑ i x i − n σ 2 2 σ 2 ) exp ( − 1 2 σ 2 ∑ i y i 2 + σ σ 2 ∑ i y i − n σ 2 2 σ 2 ) = exp ( − 1 2 σ 2 ( ∑ i x i 2 − ∑ i y i 2 ) + 1 σ ( ∑ i x i − ∑ i y i ) ) T ( X ) = ( T 1 ( X ) , T 2 ( X ) ) = ( ∑ i X i 2 , ∑ i X i ) 是否极小充分?
易知 T ( x ) = T ( y ) ⟹ p ( x ; θ ) / p ( y ; θ ) = 1 意味着 T 是充分统计量
由于 p ( x ; θ ) / p ( y ; θ ) 与 σ 无关且 σ → ∞ 时比值趋于 1,则 C ( x , y ) = 1 ,表明
1 2 σ 2 ( T 1 ( y ) − T 1 ( x ) ) + 1 σ ( T 2 ( x ) − T 2 ( y ) ) = 0 ∀ σ T 1 ( y ) − T 1 ( x ) = 2 σ ( T 2 ( y ) − T 2 ( x ) ∀ σ σ → 0 时 R H S → 0 ,可得 T 1 ( x ) = T 1 ( y ) ; T 2 ( x ) = T 2 ( y ) 即综上,p ( x ; θ ) / p ( y ; θ ) = C ( x , y ) ⟹ T ( x ) = T ( y ) 因此为极小充分得证。
如果 X 的取值集合 { x ∈ X : p ( x ; θ ) > 0 } 自身与 θ 相关,那么 p ( x ; θ ) = C ( x , y ) p ( y ; θ ) 必然有 x , y 有着相同的“定义域”(must be supported by (exactly) the same θ ‘s),例如下面的均匀分布例子
设 X 1 , … , X n ∼ i i d U ( 0 , θ ) 且 T ( X ) = max { X 1 , … , X n } 。对于 x = ( x 1 , ⋯ , x n ) > 0
p ( x ; θ ) = ∏ i = 1 n 1 θ I ( x i < θ ) = 1 θ n I ( T ( x ) < θ ) 易证 T ( x ) = T ( y ) ⟹ p ( x ; θ ) = p ( y ; θ )
若 x , y 基于 θ 的“定义域”一致,则 { θ supporting x } = ( T ( x ) , ∞ ) = ( T ( y ) , ∞ ) = { θ supporting y } 说明 T ( x ) = T ( y ) 。因此 T 为极小充分统计
Ancillary and Complete Statistics
使用充分统计量,甚至极小充分统计量表示,都不会使数据集减少的数据集?
Consider X 1 , … , X n ∼ i i d CauchyLoc ( θ ) , whose distribution is given by
p ( x ; θ ) = 1 π 1 1 + ( x − θ ) 2 = f ( x − θ ) then ( X ( 1 ) , … , X ( n ) ) is minimal sufficient. (See TPE 1.5)
This is also true for the double exponential location model p ( x ; θ ) ∝ exp ( | x − θ | )
A statistic T = T ( X ) is ancillary if its distribution does not depend on θ .
T is first-order ancillary if E θ { T ( X ) } does not depend on θ .
某种程度上,辅助统计量包含的是“无用”信息,因为其不会带来任何关于 θ 的信息。“一阶辅助”是相对辅助较弱的概念,辅助统计量一定是一阶辅助的。
X 1 , … , X n iid , X i ∼ N ( θ , 1 ) . Then
X 1 − X 2 ∼ N ( 0 , 1 ) , and hence is ancillary.
可以认为充分统计量 T “is most successful in data reduction”,如果 T 的非常数函数都不是“一阶辅助”的(E θ { f ( T ) } = c , ∀ θ ⟹ f ( T ) = c , ∀ θ )。由此定义完备统计量
A statistic T is complete if no non-constant function of T is first-order ancillary, i.e.
E θ { f ( T ) } = 0 , ∀ θ ⟹ P { f = 0 } = 1
完备性形式化了最优数据压缩的理想概念(即统计量“不多不少”包含 θ 的全部信息),极小充分统计量是可以实现最优数据压缩的概念。下面探讨完备统计量的一些性质:
完备充分统计量一定是极小充分统计量。(Bahadur’s theorem)
极小充分统计不一定是完备充分统计量。例如 N ( μ , μ 2 ) 中,样本均值 X ― 是 μ 的极小充分统计量(不存在能“进一步压缩”的充分统计量),但不是完备充分统计量(X ― 仍存在一些“冗余”)
X 1 , ⋯ X n ∼ U ( 0 , θ ) also i.i.d., then
T = max ( X 1 , ⋯ X n ) is complete sufficient.
P θ ( T ≤ t ) = ∏ i = 1 n P θ ( X i ≤ t ) = ( t θ ) n
So density f T ( t ) = n t n − 1 / θ n
Assume E θ { f ( T ) } = 0 , ∀ θ , then
∫ 0 θ f ( t ) n t n − 1 θ n d t = 0 ∀ θ i.e. ∫ 0 θ f ( t ) t n − 1 d t = 0 . Taking the derivative w.r.t θ , we have f ( θ ) θ n − 1 = 0 for all θ . Thus T is complete.
X 1 , ⋯ X n ∼ N ( θ , σ 2 ) also i.i.d. with known
σ 2 , then
T = X ― n is complete sufficient.
为表述方便,这里仅考虑 n = 1 , σ = 1 ,则 T ( X ) = X ∼ N ( θ , 1 )
E θ { f ( X ) } = 1 2 π ∫ − ∞ ∞ f ( x ) exp ( − ( x − θ ) 2 2 ) d x = 0 ∀ θ ∈ R ∫ − ∞ ∞ f ( x ) exp ( − x 2 2 ) exp ( θ x ) d x = 0 ∀ θ 将 f 表示为 f ( x ) = f + ( x ) − f − ( x ) , f + , f − ≥ 0 。则由上式指数项恒正说明 f 必“有正有负”或 f ( x ) = 0
因此
∫ − ∞ ∞ f + ( x ) e − x 2 2 e θ x d x ∫ − ∞ ∞ f + ( x ) e − x 2 2 d x = ∫ − ∞ ∞ f − ( x ) e − x 2 2 e θ x d x ∫ − ∞ ∞ f − ( x ) e − x 2 2 d x (分子相等易知,分母由 θ = 0 也易知相等),由于
f + ( x ) e − x 2 2 ∫ − ∞ ∞ f + ( x ) e − x 2 2 d x , f − ( x ) e − x 2 2 ∫ − ∞ ∞ f − ( x ) e − x 2 2 d x 均可视为概率密度函数,因此上式表示两者的 矩母函数 一致——>概率密度相等,从而 f + ( x ) = f − ( x ) , f = 0 ,即 T 为完备统计
( T 1 , ⋯ , T s ) is complete for any s-dimensional full rank exponential family.
Basu's 定理
If T is complete and sufficient for P = { P θ : θ ∈ Ω } , A is ancillary then T ( X ) ⊥ ⊥ A ( X )
Basu 定理重要在于其证明了完备充分统计量与任意不含 θ 信息的统计量均无关,说明了完备充分统计量是不含 θ 的无关信息的,而充分统计量本身包含了 θ 的全部信息,因此满足完备性后该统计量在信息意义上就完美了(即达到了最优压缩的目的)
参考
© 2024 LiQ
:) 由 Obsidian &Github 强力驱动