【Stats300A】L1
The Big Picture
- 统计学的任务
- core statistical questions
- Modeling(如何对生成数据进行建模?)
- Methodology(进行统计推断的恰当数学计算工具)
- Analysis(如何评估与对比不同推断)
对于 methodology 与 modeling,更多关注处理问题的经验(Stats 305,306)。
本系列(Stats 300A)侧重 Analysis,通过严谨的数学方法考虑统计推断的最优性。300A 主要关注 finite sample answer;300B 关注 asymptotic answer
Decision Theory
Framework
决策理论的框架可以提供回答上述核心问题的方法
inference <——包含下列三要素的 decision problem
- Statistical model
可以认为数据是从分布 中获得,只是 的真实值未知
A statistical model is a family of distributions
Here
考虑抛硬币结果序列
可以建模该过程为来自 Bernoulli 分布的独立采样
- decision procedure
从样本空间到决策空间的映射
假设建模为
- (estimator)决策空间
,the decision procedure might be . - (hypothesis test) 决策空间
. One possible decision procedure is .
- loss function
. 表示在真实参数 下采取决策 的 penalty
a common loss function is the squared-error loss
Analyzing Procedures
*需要一个评估 decision 的指标——> risk function *
- Risk
- Risk 函数给出了一种可以评估比较 procedures 的方式。
如果存在使得其风险函数“优于 ”( ),则称 procedure 是不可接受的 (inadmissible)
仍考虑对参数
(假设样本数
对一般的问题,通常没有统一的 best procedure。但可以通过改变/增加约束要求来发展最优性理论。
- Constrain
- 无偏估计(unbiased estimator):
is unbiased for estimating if - 不变性(invariance): 例如
满足位置不变性
- 无偏估计(unbiased estimator):
- Collapse(不考虑优化整体 risk 而是统计指标)
- Bayes procedures
minimize average risk( 为先验分布) - Minimax procedures
minimize the worst-case risk
- Bayes procedures
Data Reduction
Not all data is relevant to a particular decision problem.
- Statistic
A function of data
- 充分统计量
一个统计量是样本空间到某个空间 的映射。例如想要样本估计参数时可将值空间 视为参数空间 ,当想做假设检验时可视为 。统计量 即可看做样本 的一个压缩版本。[1]
考虑对样本进行参数估计,哪些信息是有用的?因此想要找到一个统计量使得参数 所包含的信息均在该统计量中便可节约存储空间,严格化数学定义如下:
A statistic is sufficient for a model
假设
The answer is yes!
不依赖于
(固定最大值为
Let
(由对称性,每种排列均有相等概率
- 通过充分统计量所见数据同时意味着无损数据压缩
由于与 独立,因此在已知如 时便可通过边缘分布重构出数据 且满足 ,易证下述定理
Let
也就是说只要充分统计量
的值给定了,样本概率密度就不会变了;反过来说即只要 变了,才会对 产生银影响,说明 的信息均被 提取了(充分统计量的含义)
在实践中,很少需要从足够的统计数据中重构数据集来实现准确的推断;相反,决策过程的风险通常可以通过仅基于充分统计量的非随机决策过程改进。
Neyman-Fisher Factorization Criterion
数学上如何更简单的定义 sufficiency
Suppose each
即
Suppose
so
Conversely, suppose
which establish the factorization criterion.
data reduction 总结
- 通过充分统计量进行数据压缩不会使 risk 更差(一些不想管的数据反而会导致 risk 增加)
- 提升可解释性
- 减少存储需求,通常减少了接下来推断的计算量
Note however that reduction via sufficiency can also increase the computational complexity of inference. See Montanari (2014).