【鞅与停时】Snell包络与37法则

秘书问题与37%法则

考虑一个包含 N 个候选人的池子,他们的能力用未知的数序列 {a1>a2>>aN} 表示,从最好到最差。这些候选人被依次随机面试并当场给出面试结果,即 {Y1,Y2,,YN}{a1,a2,,aN} 的一个随机排列,所有 N! 种排列的可能性都是相等的。被拒绝的候选人不能被重新召回。
面试过程中无法直接观察到候选人的实际能力值 {Y1,Y2,,YN},只能观察到相对排名 Xn,即第n个候选人在前n个面试者中的排名。相对排名Xn定义为:

Xnk=1n1{YnYk}

那么如何基于相对排名的信息 {X1,X2,,Xn} 选择一个停止时间 τ,使得选中最优秀候选人的概率 P(Yτ=a1) 最大化?


首先,注意到 {X1,X2,,XN} 是独立的随机变量且均服从等概率分布

P(Xn=1)=P(Xn=2)==P(Xn=n)=1/n,n={1,,N}

Yn 不是基于 {X1,X2,,Xn} 可测的,那么就要将选择最佳候选人的概率通过相对排名 Xn 相关的条件概率表示。令 fn(Xn)=P(Yn=a1|X1,,Xn),那么有

fn(x){n/N;ifx=10;ifx>1

,给出了在面试第 n 个面试者时给出相对排名的最佳候选人概率。
那么可以得到某时刻停止时的最佳候选人概率(期望收益)与 fn(x) 关系

P(Yτ=a1)=k=1nE[1{Yn=a1}1{τ=n}]=k=1nE[E[1{Yn=a1}1{τ=n}|X1,,Xn]]=k=1nE[1{τ=n}E[1{Yn=a1}|X1,,Xn]]=k=1nE[1{τ=n}fn(Xn)]=Efτ(Xτ)

动态规划方程(DPE)有

Vn(x)=max{fn(x),1n+1k=1n+1Vn+1(k)}VN(x)=fN(x)

其中:

  1. Vn 是递减的
  2. 如果 Vn(Xn)=fn(Xn) ,说明当前停止时最优的,后续策略也是最优的(贝尔曼最优性条件)
σinf{n1:Vn(Xn)=fn(Xn)}supτP(Yτ=a1)=V1(1)

由 N 递减递推可得

Vn(x)={fn(x),ifnN(1N1++1n)<nN1n+1k=1n+1Vn+1(k),else

m(N) 即不等式恰好变号的 nk=m(N)N11k1<k=m(N)1N11k,那么

Vn(x)={n/N;ifx=1nN[1N1++1n];ifx>1nm(N)Vn(x)=m(N)1N[1N1++1m(N)1];n<m(N)

最优停时即为 σ=inf{nm(N):Xn=1}

supτP(Yτ=a1)=V1(1)=m(N)1N[1N1++1m(N)1]

N

M(n)nk=M(n)+1n1k1M(n)nM(n)n11xdx=M(n)nln(n1M(n))M(n)nln(nM(n))

上式=1 即为 xlnx 极点值,M(N)/N=1/e37%

Snell Envelops

通过上述秘书问题可以看出其中的 Vn 其实就是截止在时刻 n 未来策略收益的最小上界e(ssential supremum),把可以表述这种性质的函数定义为 Snell 包络。

Snell Envelope

The Snell envelope is defined as the process Z={Zn} given by[1]

ZnesssupτnE[Yτ|Fn]

其中 Y 为收益函数,τ 为停时。

Zn=max{Yn,E[Zn+1|Fn]}
optimal stopping time

v0=supτE[Yτ] is attained if and only if the stopping time

σinf{n0:Zn=Yn}

is finite with probability one. In this case, σ is indeed optimal.

定理表明当且仅当停时 σ 几乎必然有限​​时,最优停止问题的上确界可被达到,且是最优停时。


  1. Notes on Snell Envelops and Examples ↩︎


© 2024 LiQ :) 由 Obsidian&Github 强力驱动