把一项任务的目标传达给一个人是很容易的: 我们可以使用语言,向他们展示期望结果的图片或给他们一个指导视频。 但为机器人指定一个任务需要花费大量的强化学习。 大多数先前的工作,已经深入应用于真正的机器人,使用专门的感测器来获得奖励或研究的任务,机器人的内部感测器可以用来衡量奖励用于强化学习。 例如,使用热成像摄像机来跟踪液体,或者使用特制的计算机视觉

系统来跟踪物体。 由于需要这种仪器用于我们希望学习的任何新任务,因此它对机器人技术广泛应用强化学习造成了严重瓶颈,在缺乏这种仪器的环境中直接使用这些方法不太可能。

论文[1]开发了一种端到端的方法,使机器人能够从描述成功完成任务的适度数量的图像中学习,而不需要任何人工奖励。 机器人仅从这些信息(大约80张图片)开始学习,偶尔会向用户查询附加标签。 在这些查询中,机器人向用户显示一个图像,并要求一个标签,以确定该图像是否代表成功完成任务。 只需要少量这样的查询(大约25-75个) ,使用这些查询,机器人能够在1-4小时的交互时间内直接在现实世界中学习,从而产生了一种最有效的基于现实世界图像的机器人 RL 方法,目前该论文开源了其实现方法[2]

基于分类器的奖励

虽然大多数以前的工作使用特定的系统来获得奖励来解决手头的任务,但是一个简单的替代方法已经被探索过。我们可以使用一组目标图像指定任务,然后训练一个分类器来区分目标图像和非目标图像。 该分类器的成功概率可以作为训练 RL 代理实现目标的奖励。

分类器的问题

虽然分类器是一个直观和直接的解决方案,在现实世界中指定任务的 RL 代理,但应用到现实世界时存在一些问题。 使用目标分类器指定任务的用户不仅必须为任务提供正样本,还必须提供负样本。 此外,这组反例还必须详尽,并涵盖机器人可能访问的所有空间,否则 RL 演算法可以很容易地通过发现分类器在训练中没有看到的情况来欺骗分类器。

事件变分逆控制

该论文的方法,我们称之为事件变分逆控制(variational inverse control with events,VICE) ,试图解决这个问题,而不是在对抗方式中挖掘分类器需要的负例。 该方法首先随机初始化分类器和策略。 它会修复分类器并更新策略以获得最大化报酬;然后对分类器进行训练,以区分用户提供的目标示例和策略收集的样本。 RL演算法利用这个更新的分类器作为学习策略以达到预期目标的奖励,这个交替过程持续进行,直到策略收集的样本与用户证明的目标实例无法区分。 这个过程类似于生成对抗性网路,是基于一种逆向强化学习的形式,但是与标准的逆向强化学习相比,它不需要示例——只需要在分类器训练开始时提供正确的示例图像。 该论文认为其有效地解决了朴素分类器所面临的开发问题,用户不需要提供负例。

主动学习

虽然 该方法能够学习端到端的策略来解决现实世界中的机器人任务,而不需要任何获得奖励的工程,但它确实有一个局限性: 它需要提前提供数以千计的正例来学习,这可能成为用户的负担。 为了解决这个问题,论文开发了一种新的方法,使机器人能够查询用户的标签,除了使用一定数量的最初提供的目标示例。 我们将这种方法称为带有活动目标查询的强化学习查询(active goal queries,RAQ)。 在这些活动查询中,机器人向用户显示一个图像并要求一个标签,以确定该图像是否代表任务的成功完成。 虽然为每一个状态请求标签相当于要求用户手动提供奖励信号,但该论文认为只需要为训练过程提供一小部分图像标签,使其成为学习技能的一种有效和实用的方法,而不需要手动设计奖励。

相关工作

几种数据驱动的方法已经被提出来用于奖励规范问题,而逆向强化学习(Inverse Reinforcement Learning,IRL)[3]是这种设置中较为突出的框架之一。 本论文的方法与最近的 IRL 方法密切相关,如指导性成本学习[4]和对抗性逆向强化学习[5]。 这些方法需要人类专家提供的状态、动作对的轨迹,本论文提出只需要最终的期望状态,使得指定任务变得更加容易,也使得强化学习演算法能够发现独立完成任务的新方法,而不是简单地模仿专家。

参考

  1. ^https://arxiv.org/abs/1904.07854
  2. ^https://github.com/avisingh599/reward-learning-rl
  3. ^https://ai.stanford.edu/~ang/papers/icml00-irl.pdf
  4. ^https://arxiv.org/abs/1603.00448
  5. ^https://arxiv.org/abs/1710.11248

推荐阅读:

相关文章