把一項任務的目標傳達給一個人是很容易的: 我們可以使用語言,向他們展示期望結果的圖片或給他們一個指導視頻。 但為機器人指定一個任務需要花費大量的強化學習。 大多數先前的工作,已經深入應用於真正的機器人,使用專門的感測器來獲得獎勵或研究的任務,機器人的內部感測器可以用來衡量獎勵用於強化學習。 例如,使用熱成像攝像機來跟蹤液體,或者使用特製的計算機視覺

系統來跟蹤物體。 由於需要這種儀器用於我們希望學習的任何新任務,因此它對機器人技術廣泛應用強化學習造成了嚴重瓶頸,在缺乏這種儀器的環境中直接使用這些方法不太可能。

論文[1]開發了一種端到端的方法,使機器人能夠從描述成功完成任務的適度數量的圖像中學習,而不需要任何人工獎勵。 機器人僅從這些信息(大約80張圖片)開始學習,偶爾會向用戶查詢附加標籤。 在這些查詢中,機器人向用戶顯示一個圖像,並要求一個標籤,以確定該圖像是否代表成功完成任務。 只需要少量這樣的查詢(大約25-75個) ,使用這些查詢,機器人能夠在1-4小時的交互時間內直接在現實世界中學習,從而產生了一種最有效的基於現實世界圖像的機器人 RL 方法,目前該論文開源了其實現方法[2]

基於分類器的獎勵

雖然大多數以前的工作使用特定的系統來獲得獎勵來解決手頭的任務,但是一個簡單的替代方法已經被探索過。我們可以使用一組目標圖像指定任務,然後訓練一個分類器來區分目標圖像和非目標圖像。 該分類器的成功概率可以作為訓練 RL 代理實現目標的獎勵。

分類器的問題

雖然分類器是一個直觀和直接的解決方案,在現實世界中指定任務的 RL 代理,但應用到現實世界時存在一些問題。 使用目標分類器指定任務的用戶不僅必須為任務提供正樣本,還必須提供負樣本。 此外,這組反例還必須詳盡,並涵蓋機器人可能訪問的所有空間,否則 RL 演算法可以很容易地通過發現分類器在訓練中沒有看到的情況來欺騙分類器。

事件變分逆控制

該論文的方法,我們稱之為事件變分逆控制(variational inverse control with events,VICE) ,試圖解決這個問題,而不是在對抗方式中挖掘分類器需要的負例。 該方法首先隨機初始化分類器和策略。 它會修復分類器並更新策略以獲得最大化報酬;然後對分類器進行訓練,以區分用戶提供的目標示例和策略收集的樣本。 RL演算法利用這個更新的分類器作為學習策略以達到預期目標的獎勵,這個交替過程持續進行,直到策略收集的樣本與用戶證明的目標實例無法區分。 這個過程類似於生成對抗性網路,是基於一種逆向強化學習的形式,但是與標準的逆向強化學習相比,它不需要示例——只需要在分類器訓練開始時提供正確的示例圖像。 該論文認為其有效地解決了樸素分類器所面臨的開發問題,用戶不需要提供負例。

主動學習

雖然 該方法能夠學習端到端的策略來解決現實世界中的機器人任務,而不需要任何獲得獎勵的工程,但它確實有一個侷限性: 它需要提前提供數以千計的正例來學習,這可能成為用戶的負擔。 為瞭解決這個問題,論文開發了一種新的方法,使機器人能夠查詢用戶的標籤,除了使用一定數量的最初提供的目標示例。 我們將這種方法稱為帶有活動目標查詢的強化學習查詢(active goal queries,RAQ)。 在這些活動查詢中,機器人向用戶顯示一個圖像並要求一個標籤,以確定該圖像是否代表任務的成功完成。 雖然為每一個狀態請求標籤相當於要求用戶手動提供獎勵信號,但該論文認為只需要為訓練過程提供一小部分圖像標籤,使其成為學習技能的一種有效和實用的方法,而不需要手動設計獎勵。

相關工作

幾種數據驅動的方法已經被提出來用於獎勵規範問題,而逆向強化學習(Inverse Reinforcement Learning,IRL)[3]是這種設置中較為突出的框架之一。 本論文的方法與最近的 IRL 方法密切相關,如指導性成本學習[4]和對抗性逆向強化學習[5]。 這些方法需要人類專家提供的狀態、動作對的軌跡,本論文提出只需要最終的期望狀態,使得指定任務變得更加容易,也使得強化學習演算法能夠發現獨立完成任務的新方法,而不是簡單地模仿專家。

參考

  1. ^https://arxiv.org/abs/1904.07854
  2. ^https://github.com/avisingh599/reward-learning-rl
  3. ^https://ai.stanford.edu/~ang/papers/icml00-irl.pdf
  4. ^https://arxiv.org/abs/1603.00448
  5. ^https://arxiv.org/abs/1710.11248

推薦閱讀:

相關文章