強化學習(RL)就像攀登1000米高的岩石表面一樣,需要學習如何做出連續的決定。RL的潛在應用範圍很廣,包括機器人(無人機控制)、對話系統(個人助理、自動呼叫中心)、遊戲產業(非玩家角色、計算機人工智慧)、治療設計(藥物測試、作物管理)、複雜系統控制(資源分配、流程優化)等等。

已經有一些RL成就,例如Deepmind 發明瞭 DQN,這是第一個能夠使用視覺輸入在人類技能水平上玩遊戲的深層 RL 演算法[1]。但是將 RL 應用於大多數現實世界的場景仍然是一個挑戰。首先,深度 RL 演算法的樣本效率不高,需要數十億個樣本才能得到結果,在現實應用中提取如此龐大的樣本數量是不可行的;其次,RL在道德約束方面也不夠完善,需要安全演算法。 他們必須能夠在現實生活中學習,而不用冒生命或設備的風險。最後,演算法可靠性很重要,並能夠持續提供可靠的結果。

事實上,RL在很大程度上是不可靠的。 更糟糕的是,由於強化學習過程的隨機性,用不同的隨機種子進行兩次測試會得到截然不同的結果。 微軟研究人員提出了兩種方法解決這種不可靠性:

演算法選擇

?微軟在 ICLR上發表的文章[2]提出了這個想法:如果一個演算法不可靠,就訓練其中的幾個,並使用最好的一個。 下圖演示了演算法選擇過程:

強化學習中的演算法選擇(來自論文)

使幾個 DQN 架構競爭,系統產生了比任何單一架構本身更好的最終性能。

改進策略可靠性

微軟在提高 RL 演算法可靠性方面的第二次嘗試集中在一個特定的設置上,這個設置在現實應用中經常遇到,即批處理強化學習[3]。與傳統的在線設置相比,在批處理強化學習中,學習代理不直接與環境交互。相反,它是一個baseline代理。 它是固定的,用來收集數據,然後輸入到一個演算法來訓練一個新的策略。 批處理設置是現實場景中常見的約束。 對話系統或視頻遊戲通常部署在個人設備上,一般不會頻繁更新。

批處理強化學習過程(來自論文)

研究人員設計一種稱為 SPIBB (Safe Policy Improvement with Baseline Bootstrapping)的新演算法,該演算法將在2019 ICML 會議上展示。 Spibb對策略更新實現了以下常識性規則:如果你不知道自己在做什麼,那麼就不要這樣做。 更確切地說,如果有足夠的數據支持策略變更,那麼它就可以這樣做。 否則的話只需複製數據收集過程中使用的baseline策略。

微信公眾號:水木AI,歡迎來聊

參考

  1. ^https://www.nature.com/articles/nature14236/
  2. ^https://www.microsoft.com/en-us/research/publication/reinforcement-learning-algorithm-selection/
  3. ^https://www.microsoft.com/en-us/research/publication/safe-policy-improvement-with-baseline-bootstrapping-2/

推薦閱讀:

相關文章