強化學習(RL)就像攀登1000米高的岩石表面一樣,需要學習如何做出連續的決定。RL的潛在應用範圍很廣,包括機器人(無人機控制)、對話系統(個人助理、自動呼叫中心)、遊戲產業(非玩家角色、計算機人工智慧)、治療設計(藥物測試、作物管理)、複雜系統控制(資源分配、流程優化)等等。
已經有一些RL成就,例如Deepmind 發明瞭 DQN,這是第一個能夠使用視覺輸入在人類技能水平上玩遊戲的深層 RL 演算法[1]。但是將 RL 應用於大多數現實世界的場景仍然是一個挑戰。首先,深度 RL 演算法的樣本效率不高,需要數十億個樣本才能得到結果,在現實應用中提取如此龐大的樣本數量是不可行的;其次,RL在道德約束方面也不夠完善,需要安全演算法。 他們必須能夠在現實生活中學習,而不用冒生命或設備的風險。最後,演算法可靠性很重要,並能夠持續提供可靠的結果。
事實上,RL在很大程度上是不可靠的。 更糟糕的是,由於強化學習過程的隨機性,用不同的隨機種子進行兩次測試會得到截然不同的結果。 微軟研究人員提出了兩種方法解決這種不可靠性:
演算法選擇
?微軟在 ICLR上發表的文章[2]提出了這個想法:如果一個演算法不可靠,就訓練其中的幾個,並使用最好的一個。 下圖演示了演算法選擇過程: