如何提高強化學習的可靠性？

強化學習（RL）就像攀登1000米高的岩石表面一樣，需要學習如何做出連續的決定。RL的潛在應用範圍很廣，包括機器人(無人機控制)、對話系統(個人助理、自動呼叫中心)、遊戲產業(非玩家角色、計算機人工智慧)、治療設計(藥物測試、作物管理)、複雜系統控制(資源分配、流程優化)等等。

已經有一些RL成就，例如Deepmind 發明瞭 DQN，這是第一個能夠使用視覺輸入在人類技能水平上玩遊戲的深層 RL 演算法^[1]。但是將 RL 應用於大多數現實世界的場景仍然是一個挑戰。首先，深度 RL 演算法的樣本效率不高，需要數十億個樣本才能得到結果，在現實應用中提取如此龐大的樣本數量是不可行的；其次，RL在道德約束方面也不夠完善，需要安全演算法。他們必須能夠在現實生活中學習，而不用冒生命或設備的風險。最後，演算法可靠性很重要，並能夠持續提供可靠的結果。

事實上，RL在很大程度上是不可靠的。更糟糕的是，由於強化學習過程的隨機性，用不同的隨機種子進行兩次測試會得到截然不同的結果。微軟研究人員提出了兩種方法解決這種不可靠性：

演算法選擇

?微軟在 ICLR上發表的文章^[2]提出了這個想法：如果一個演算法不可靠，就訓練其中的幾個，並使用最好的一個。下圖演示了演算法選擇過程：