【Stats300A】L1

The Big Picture

对于 methodology 与 modeling,更多关注处理问题的经验(Stats 305306)。
本系列(Stats 300A)侧重 Analysis,通过严谨的数学方法考虑统计推断的最优性。300A 主要关注 finite sample answer;300B 关注 asymptotic answer

Decision Theory

Framework

决策理论的框架可以提供回答上述核心问题的方法

inference <——包含下列三要素的 decision problem

Analyzing Procedures

*需要一个评估 decision 的指标——> risk function *

R(θ,δ)=Eθ{L(θ,δ(X))}

对一般的问题,通常没有统一的 best procedure。但可以通过改变/增加约束要求来发展最优性理论。

Data Reduction

Not all data is relevant to a particular decision problem.

Statistic

A function of data T:XT

Sufficient Statistic

A statistic is sufficient for a model P={Pθ:θΩ} if t, the conditional distribution X|T(x)=t does not depend on θ.

定理 (TPE 1.6)

Let X be distributed according to PθP and let T be sufficient for P. Then, for any estimator δ(X) of g(θ), there exists a (possibly randomized) estimator based on T which has the same risk function as δ(X).

也就是说只要充分统计量 T 的值给定了,样本概率密度就不会变了;反过来说即只要 T 变了,才会对 θ 产生银影响,说明 θ 的信息均被 T 提取了(充分统计量的含义)

在实践中,很少需要从足够的统计数据中重构数据集来实现准确的推断;相反,决策过程的风险通常可以通过仅基于充分统计量的非随机决策过程改进。

Neyman-Fisher Factorization Criterion

数学上如何更简单的定义 sufficiency

定理(Neyman-Fisher Factorization Criterion (NFFC), TSH, p. 19)

Suppose each PθP has density p(x;θ) w.r.t. a common σ -finite measure μ, i.e., dPθ/dμ=p(x;θ) Then T(X) is sufficient if and only if p(x;θ)=gθ(T(x))h(x) for some gθ,h.

T(X) 是充分统计的充要条件为概率分布 p(x;θ) 可分解为其中一个因子仅与 T(X) 有关与 θ 无关

data reduction 总结

Note however that reduction via sufficiency can also increase the computational complexity of inference. See Montanari (2014).

参考


  1. 直观理解Basu's Theorem以及完备统计量-知乎 ↩︎


© 2024 LiQ :) 由 Obsidian&Github 强力驱动