Title: Sub-policy Adaptation for Hierarchical Reinforcement Learning (NIPS 2019 under review)


核心思想:

HRL 是解决sparse reward,long horizon 问题的关键方法之一,一般的HRL 方法中的skills的获得过程和high-level controller的训练过程是decoupling的,而且通常在一个new task中reuse low-level skills的时候,这些skills保持fixed;在new task中基于fixed skills训练new high-level controller,实际上会导致skills的sub-optimality

这篇文章对HRL下的policy gradients theorem进行approximation,得到了一种新的hierarchical policies的学习方式,使得其避免对先验知识和hand-craft design的依赖,并且在new task中也能方便的进行adaptation

文章基于PPO提出HiPPO,此外还提出了针对hierarchical policy gradients的baselines以减小variance,以及varying time-commitment 以及 information bottleneck low-level observation等机制,进一步保证的学习到的skills的质量,diversity以及transferability

主要内容:

1)some background

a. HRL 的工作主要都基于temporal abstraction,通常的架构为high-low level的controller,high level在更大的time scale 上make decision,表示著更具抽象意义,宏观层面的policy

b. 这其中相当一部分是 「goal reacher」的形式,e.g., hDQN, HIRO, HAC, Feudal Network等等,low-level policies基于intrinsic reward学习如何reach goal

这种形式的hierarchical policies适用于state-reaching tasks(比如Montezumas Revenge),然而由于intrinsic reward function并不是original MDP中自带的,所以这一点一定程度上限制了low-level policy在非state-reaching tasks的运用;另外,在new task上,如果low-level policy很可能需要重新design intrinsic reward function进行调整。

这篇paper中,通过直接对hierarchical policy gradients的approximation,基于extrinsic reward function,simultaneously学习high-level policy和skills,避免了对intrinsic reward function的依赖

c. 另一类HRL的方法基于option framework,e.g., OC, A2OC,这类方法最「脆弱」的部分是termination function,即determine when the option should terminate,通常需要一些regularizer来避免skill collapse,例如多个option中只有一个真正有用(这一点似乎也是OC为人诟病的一点)

这篇paper中,使用random length skills,避免了对termination function的训练,同时也获得了more stable skills

2)preliminaries

典型的two-level hierarchy,如下图所示,high-level policy输出latent codes z,low-level policy接受z输出primitive actions,每个high-level action 持续p个steps,p是一个random variable

3)Approximate Hierarchical PG

a. PG的一般形式如下式1所示, au 是 state-action trajectory

在上述的HRL model下,轨迹的概率可以表示成,

第一个联乘表示high-level scale上的k段,第二个联乘表示每个段内的action trajectory概率,最后一项为dynamics

b. 上式2中存在对high-level policy的求和,这使得log operator无法将式2转换成求和的形式,这导致对PG的计算难以得到稳定的结果。

尝试对式2进行直接求PG,

难以处理的是式2中的求和项,对求和中的每一项进行分析,实际上是某个z_j下的sub-trajectory的梯度,

这里,文中基于skills应当easy to distinguish的假设,或者说,skills应当diverse,对于每个action只有一个sub-policy 给其比较高的概率,即,

上式表示,如果z_j不是kp时刻选定那个z,则其选当前action的概率小于epsilon,则在该z_j下出现该sub-trajectory的概率的upper bound 为 epsilon^{p},进而得到,

从而,将求和项进行替换,得到Lemma 1,

Lemma 1 中给出的,实际上恰好是state-latent-action trajectory的概率的梯度,

(完整的proof详见appendix)

c. 得到Lemma 1中的近似梯度之后,既可以通过PG演算法对policy parameters进行更新了

考虑到PG中的variance问题,常规操作是减掉一个unbiased的state-dependent baseline,这里结合hierarchical model,对low-level policy设计了state-latent-dependent baseline,由于latent与low-level policy 无关,也可类似地证明其unbiased

得到advantaged approximated hierarchical PG为,

4)HiPPO

a. 基于上述得到的PG,用PPO进行具体实现,

b. varying time-commitment

大多数之前的方法,使用fixed time-commitment,即一个high-level action maintain fixed steps,或者基于complex option framework进行实现,e.g., termination function,

这里提出使用varying time-commitment,从Tmin,Tmax区间内采样,一定程度上避免了skill collapse,和提升了robustness

c. information bottleneck low-level observation

mask 环境的state,得到

通过mask掉task-related的information,使得skills基于proprioceptive information进行决策,所有task相关的information来自于latent code

这样实际上是一个lossy compression过程,这同样保证了得到的skills的质量以及在new task中的transferability

5)overall algorithm

实验:

环境主要是Snake Gather和Ant Gather以及其变种

1)对比flat RL methods

主要对比了PPO,进一步地,为了充分表明HRL的优势,而不仅仅是temporal extended exploration,比较了PPO with action repeat,以及HiPPO with p=1

2)robustness to dynamics perturbations

在original task中训练policy,通过改变环境的一些设定,e.g., mujoco 中的physical properties,使得到的policy在perturbated tasks中进行evaluation,

作者得出结论,HiPPO with random p具有最好的zero-shot transfer performance (似乎下表中的结果并不能支持这一点结论...)

3)Adaptation of Pre-trained skills

通过SNN 得到6个pre-trained skills,进行如下实验,表明HiPPO对pre-train skill的further improve 能力

4)Skill diversity assumption

最后作者回头check了一下Lemma 1中的假设,即,

table中的结果表明学到的policy与assumption基本上能自恰,

(一个小bug)

总结:

1)文中得到approximated hierarchical PG的方式与OC类似,都是对hierarchical model下的PG的不同方式的推导,approximated hierarchical PG的确提供了hierarchical policy的一种新的训练方式

2)Lemma 1基于的skill diversity假设,与DIAYN中对skill的期望是类似的

3)varying time-commitment和information bottleneck,个人感觉contribution一般,实验中也没有比较强力的表现出这两个factor的effectiveness

4)缺乏与state-of-the-art 的HRL方法的比较


推荐阅读:
相关文章