強化學習(RL)爲優化面向目標的行爲提供了一個統一而靈活的框架,在解決諸如玩電子遊戲、連續控制和機器人學習等具有挑戰性的任務方面取得了顯著的成功。在這些應用領域中,RL 算法的成功通常取決於高質量和高密度反饋的可用性。然而,將 RL 算法的適用範圍擴大到稀疏和反饋不明確的環境是一個持續的挑戰。

強化學習中,如何從稀疏和不明確的反饋中學習泛化?

近日,谷歌 AI 發佈以一篇博文討論了這個問題,筆者編譯整理如下:

研究此類問題中 RL 算法性能的一種常用方法是通過語言理解任務,在該任務中,代理接收自然語言輸入,並且生成複雜的響應以實現輸入中指定的目標,同時它只接收二進制形式的成功或者失敗反饋。

例如一個「盲」代理,通過遵循一系列自然語言命令(例如,「right,up,up,right」)來獲得迷宮中目標的位置。給定輸入文本,代理(綠圈)需要解釋命令,並根據這些解釋採取措施來生成操作序列(a)。如果達到目標(紅星),代理將獲得 1 次獎勵,否則沒有獎勵。由於代理無法訪問任何可視信息,因此代理完成此任務並歸納出新指令的唯一方法是正確理解指令。

強化學習中,如何從稀疏和不明確的反饋中學習泛化?

可以看到,按照軌跡 a1、a2 和 a3 可以達到目標。

在這些任務中,RL 代理需要從稀疏(只有一些軌跡會產生反饋)和未指定(沒有區分有意義的成功和偶然的成功)反饋中學習泛化。重要的是,由於未指定反饋,代理可能會收到虛假的正反饋。這可能導致獎勵黑客行爲,使得部署實際系統時出現意外和有害行爲。

在「從稀疏和不確定的反饋中學習泛化」時,我們通過開發元獎勵學習(MeRL)來解決反饋不確定的問題,該方法通過優化輔助獎勵函數向代理提供更精細的反饋。MERL 使用一種新的探索策略與成功軌跡的記憶緩衝區相結合,並從稀疏反饋中學習。我們方法的有效性在語義分析上得到了證明,語義分析的目標是學習從自然語言到邏輯形式的映射(例如,將問題映射到 SQL 程序)。

本文研究了弱監督問題的設置,其目的是在沒有任何形式的程序監督的情況下,自動從問答對中發現邏輯程序。例如,給定問題「哪個國家獲得的銀牌最多?」以及與之相關的維基百科表格,代理需要生成一個類似 SQL 的程序,從而得到正確的答案(例如,「尼日利亞」)。

強化學習中,如何從稀疏和不明確的反饋中學習泛化?

該方法在 WikiTableQuestions 和 WikiSQL 達到了最先進成果的基準,相比於之前的方法,其效果分別提高了 1.2% 和 2.4%。不同於以前的學習方法,MeRL 自動學習輔助獎勵函數而不需要任何專家演示,這使其應用更加廣泛。下圖是我們方法的概述:

強化學習中,如何從稀疏和不明確的反饋中學習泛化?

本文方法概述。我們採用:

(1)涵蓋探索的模式,在內存緩衝區中收集一組不同的成功軌跡;

(2)採用元學習或貝葉斯優化,以學習輔助獎勵,爲策略優化提供更精確的反饋。

元獎勵學習(MeRL)

MeRL 在處理不明確反饋方面的關鍵是,意外成功的虛假軌跡和程序對代理的泛化性能有害。

例如,代理可能只能處理上面迷宮問題的特定實例。然而,如果它在訓練中學習了虛假的實例,那麼當它遇到沒有見過的指令時,很可能會失敗。爲了改善這個問題,MeRL 優化了一個更精細的輔助獎勵函數,它可以根據軌跡的特徵區分是否爲意外成功。

強化學習中,如何從稀疏和不明確的反饋中學習泛化?

MeRL 示意圖:通過從輔助獎勵模型中獲得的獎勵信號對 RL 代理進行訓練,而輔助獎勵則通過代理的泛化誤差進行訓練。

從稀疏反饋中學習

要從稀疏反饋中學習,有效的探索對於找到一系列成功的軌跡至關重要。本文利用 Kullback–Leibler (KL) 散度的兩個方向來解決這一挑戰。

在下面的例子中,我們使用 kl 散度來最小化固定雙峯(紫色陰影)和學習高斯(綠色陰影)分佈之間的差異,這可以分別表示代理的最優策略和我們的學習策略的分佈。KL 目標的一個方向學習一個分佈,該分佈試圖涵蓋兩種模式,而其他目標學習的分佈尋求一種特定模式(即,它更喜歡一種模式而不是另一種模式)。我們的方法利用了 KL 集中於多個峯值模式的傾向來收集不同的成功軌跡集,並通過模式尋找 KL 在軌跡之間的隱含偏好來學習一個穩健的策略。

強化學習中,如何從稀疏和不明確的反饋中學習泛化?

左:覆蓋模式 KL,右:尋優模式 KL

結論

設計區分最優和次優行爲的獎勵函數對於將 RL 應用到實際中至關重要。這項研究在沒有任何人類監督的情況下,朝着創建獎勵函數的方向邁出了一小步。

在今後的工作中,我們希望從自動學習密集獎勵函數的角度來解決 RL 中的信用分配問題。

來源:https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

本文來源於人人都是產品經理合作媒體 @雷鋒網,翻譯@王雪佩

題圖來自Unsplash,基於CC0協議。

相关文章