State Abstraction in RL(Proof)
State Abstraction in RL(Proof)
来自专栏强化学习
介绍
在上篇文章State Abstraction in RL中,介绍了关于状态抽象的一个重要定理。
Theorem 1(Loss bound for a single abstraction). , 以至少 的概率有:
下面给出其证明。
证明是对定理中每一项的具体含义以及相互关系的最好理解方式。
符号约定
在给出具体证明前,需要再给出2个定义,方便证明。
对于给定数据集 和抽象 ,定义运算元 如下:对于任意的值函数 ,
在这里 。接著,我们定义运算元 如下:
在这里, 是定义在原始 上的贝尔曼最优运算元: ; 定义了两个向量的内积。
对于 和 的理解:1)从概率角度讲,是定义在具体数据集上的;而 是对 的期望。2) 从运算形式讲,两个运算元分别定义了如何把定义在原始 的 ,作用到抽象空间的 上,得到抽象空间的值函数 ,最后再把 返回到原始 。作为一个例子,考虑我们需要衡量原始 的 与,(由于引入状态抽象而获得的), 的差异。(别忘了抽象空间得到的策略 最终是要在原始 执行!!!)
理解时,(出于对原始论文的尊重以及一致性),需要注意到 公式中的迭代变数 是个选择变数,表示 的贡献,不是下一个时刻变数 ;具体对下个时刻 的更新是由 完成的。
从定义可以看出, 是基于模型 ,对贝尔曼最优运算元 的变形; 同理, 是对 的贝尔曼最优运算元 的变形。同时,不难验证 分别是 的固定点。
引理及证明
Lemma 1. 对于任意贝尔曼最优运算元 (都作用在 上并且具有相同的收缩率 ), 分别为他们的固定点,有:
Proof:
Lemma 2. 对于任意 和确定性的 ( 的界限为 ,这里通过 的定义——等比数列的无穷级数和很好满足),以至少 的概率有,
Proof:
根据定义 ,可以看做 个随机变数的平均值;当 大于0且 是确定值时, 。根据Hoeffdings Inequality, ,如果要使得这个不等式以至少 的概率,对于所有 成立,根据概率的结合律(union bound law, ), 只需要以 替换上式中的 即可(由于 和 作用的抽象空间的大小为 而不是 )。所以,以 至少 的概率, 满足
Lemma 3. 定义 是原始 的贝尔曼最优运算元,对于定义在抽象空间上、任意界限为 的 ,有,
Proof:
定理证明
用 表示抽象空间上的 转移(lifted)到原始 上,也就是说
对于第一项,首先让 ,应用引理1;然后使用引理3,有:
对于第二项,首先让 ,应用引理1;然后使用引理2,有:
将第一项和第二项带回上述不等式,有:
综上,Theorem 1(Loss bound for a single abstraction). , 以至少 的概率有: 得以证明。