Modern Deep Reinforcement Learning Algorithms
Sergey Ivanov, Alexander Dyakonov, Moscow State University, 2019.06
摘要
近年來,強化學習領域基於傳統理論與深度學習相結合的研究範式在許多人工智慧任務中取得了明顯的突破,催生了深度強化學習(Deep Reinforcement Learning, DRL)這樣的新研究領域。這篇綜述回顧了近年來的DRL演算法並且主要關注理論證明、應用侷限以復現實驗中觀察到的特點。(這篇綜述篇幅較長,後面翻譯基礎部分從簡,基本的RL概念可以參看這裡)
1. 引言
深度強化學習在很多人工智慧領域取得與人類相當的水平,如圍棋、Dota、StartCraft II等。雖然RL一般用序列決策來建模,但是對於世界的模型假設是很少的,經常把世界作為一種黑盒,這樣模型的適應能力更強。
第二節建立基本的RL模型,涉及到探索以及延遲稀疏獎勵等概念。
第三節一部分內容介紹傳統的RL演算法,這部分是理論基石,這些演算法在小規模以及環境狀態可枚舉的問題上能較好的應用。另一部分介紹基於價值的強化學習研究這一方向,主要介紹DQN,DQN再提出後的幾年顯著地擴展和提高了DRL這一領域研究水平。
第四節介紹基於價值的DRL的分散式方法。
第五節介紹DRL的另一個主要的研究方向——策略梯度方法。策略梯度方法直接優化目標函數,並且在問題建立的時候就顯式地表達出來。策略梯度方法使用神經網路的時候需要使用一些特殊的優化方法來解決一些問題。策略方法已經成為了很有競爭力的DRL方法,主要得益於巨大的並行化潛力以及連續問題的解決能力。
第六節在標準測試環境下復現state-of-art DRL演算法,討論這些演算法在實際應用中的細微差別。目前最先進的DRL演算法人然由很多不足的地方。和神經網路訓練需要大量數據類似,DRL在一些數據產生難度大的場景下難以取得令人滿意的效果。另外,強化學習對初始化以及超參數敏感,優化過程不穩定。因此很多不同團隊觀測到的經驗有難以復現。
2. 強化學習問題的建立
2.1 兩個假設
獎勵假設:強化學習的目的是最大化累積獎勵的期望。Markov假設:轉移只依賴當前狀態和當前選擇的動作,與之前的狀態和動作無關。
2.2 環境模型的兩個定義
馬爾可夫決策(MDP):
馬爾可夫決策可以表示為 ,其中:
- ——狀態空間。
- ——動作空間。離散: ,連續: 。
- ——轉移概率 , , 。
- ——獎勵函數函數。
- ——初始狀態。
狀態轉移
狀態轉移用 來表示。觀察到的軌跡可以寫成
2.3 目標
最大化累計獎勵(maximize a cumulative reward),叫做回報(return):
策略(policy)是智能體在某狀態下採取某動作的概率分佈 。在此基礎上可以定義軌跡 的概率分佈,記為 : 。此時,期望獎勵最大化可寫成 ,這個式要收斂的話,則要保證 ( 有界),因此引入折扣期望獎勵模型: , 。在折扣獎勵模型下,強化學習的任務就是找到最優的策略 使得折期望獎勵最大化:
2.4 值函數
在給定策略 下,狀態 的值函數為: ,即在策略 以及智能體處於狀態 的條件下,它後續獲得累計獎勵的期望,最優值函數用 表示(傳統上也用 表示)。另外一個重要的函數是Q函數: ,以上兩個函數是相互聯繫的:
求解最優Q函數 實際上是在求解最佳策略: 。
2.5 強化學習演算法分類
meta-heuristics,policy gradient,value-based,model-based。(下圖為部分DRL演算法分類圖,未完全按綜述方法進行分類)