秘书问题与37%法则
考虑一个包含 个候选人的池子,他们的能力用未知的数序列 表示,从最好到最差。这些候选人被依次随机面试并当场给出面试结果,即 是 的一个随机排列,所有 种排列的可能性都是相等的。被拒绝的候选人不能被重新召回。
面试过程中无法直接观察到候选人的实际能力值 ,只能观察到相对排名 ,即第个候选人在前个面试者中的排名。相对排名定义为:
那么如何基于相对排名的信息 选择一个停止时间 ,使得选中最优秀候选人的概率 最大化?
首先,注意到 是独立的随机变量且均服从等概率分布
不是基于 可测的,那么就要将选择最佳候选人的概率通过相对排名 相关的条件概率表示。令 ,那么有
,给出了在面试第 个面试者时给出相对排名的最佳候选人概率。
那么可以得到某时刻停止时的最佳候选人概率(期望收益)与 关系
动态规划方程(DPE)有
其中:
- 是时刻 n下取值 时能够获得的最大期望收益,即
- :立即停止的收益,即选择当前候选人。
- :继续观察的期望收益。因为 是服从一个均匀分布,因此继续观察的期望即不同 k 对应的 value 的均值。
【重要观察】
- 是递减的
- 如果 ,说明当前停止时最优的,后续策略也是最优的(贝尔曼最优性条件)
由 N 递减递推可得
设 即不等式恰好变号的 即 ,那么
最优停时即为
【 】
上式=1 即为 极点值,
Snell Envelops
通过上述秘书问题可以看出其中的 其实就是截止在时刻 n 未来策略收益的最小上界e(ssential supremum),把可以表述这种性质的函数定义为 Snell 包络。
The Snell envelope is defined as the process given by
其中 为收益函数, 为停时。
- Snell 包络是支配 的最小上鞅

is attained if and only if the stopping time
is finite with probability one. In this case, is indeed optimal.
定理表明当且仅当停时 几乎必然有限时,最优停止问题的上确界可被达到,且是最优停时。
- 若 几乎必然有限,则 最优
构造截断停时 ,保证其有限性
可证 是鞅。因为 ,,有(最后一个等号一句 定义)
说明 达到上确界,optimal
2. 若存在最优停时 ,则 必有限
假设有最优停时,满足 。
根据 Snell 包络性质,,那么根据 Z 的上鞅性质,
因此结合 得到 进而 。由于 的存在性,几乎必然有 有限。
© 2024 LiQ
:) 由 Obsidian&Github 强力驱动