在線學習(MAB)與強化學習(RL)[5]：貝葉斯RL演算法

本系列文章的[2][3]我們介紹了非貝葉斯框架下bandit和更一般的RL情形下的一些演算法（貪心和UCB演算法）；系列文章[4]我們介紹了貝葉斯框架下bandit情形下的一些演算法（貪心和Thompson Sampling演算法）。本篇文章我們則考察一下在貝葉斯框架下一般情形下的一些RL演算法。

本篇文章主要的參考文獻：

Russo D J, Van Roy B, Kazerouni A, et al. A tutorial on thompson sampling[J]. Foundations and Trends? in Machine Learning, 2018, 11(1): 1-96.

Osband I, Russo D, Wen Z, et al. Deep exploration via randomized value functions[J]. arXiv preprint arXiv:1703.07608, 2017.

1. 更一般的Thompson Sampling

本節我們拓展上次文章介紹的TS演算法到更一般的情形。這裡我們認為action space 可以是無限維的，然後這裡我們規定每個時刻選擇了一個action 之後，會根據一個條件概率分佈 $q_{ heta}(cdot|a_t)$ 生成一個狀態，然後得到reward . 我們假設函數已知但未知，也就是說演算法需要邊學習邊儘可能得到最多的reward。

那麼如果我們的state space維數有限，給定一個的估計，我們reward的期望可以寫成

$mathbb{E}_{q_{hat{ heta}}}[r(s_t)|a_t=a]=sum_{o}q_{hat{ heta}}(o|a)r(o).$

假設的取值範圍有限，如果我們認為是當前對的belief（後驗分佈，posterior distribution），那麼這個後驗分佈可以根據Bayes rule如此更新：

$forall~u,~mathbb{P}_{p,q}( heta=u|a_t,s_t)=frac{p(u)q_u(s_t|a_t)}{sum_v p(v)q_v(s_t|a_t)}.$

Algorithm 1:

for do
//estimate model
$hat{ heta}_k leftarrow mathbb{E}_p[ heta]$
//select and apply action:
$a_tleftarrow argmax_k hat{ heta}_{ain mathcal{A}}mathbb{E}_{q_{hat{ heta}}}[r(s_t)|a_t=a]$
Apply and observe
//update distribution:
$pleftarrow mathbb{P}_{p,q}( hetain cdot|a_t,s_t)$
end for

Algorithm 2:

for do
//sample model
$hat{ heta}_k leftarrow hat{ heta}sim p$
//select and apply action:
$a_tleftarrow argmax_k hat{ heta}_{ain mathcal{A}}mathbb{E}_{q_{hat{ heta}}}[r(s_t)|a_t=a]$
Apply and observe
//update distribution:
$pleftarrow mathbb{P}_{p,q}( hetain cdot|a_t,s_t)$
end for

然後跟上次Bernoulli Bandit的例子非常類似的我們也給出貪心演算法和一般情形的TS演算法的偽代碼（見上）。注意，這兩個演算法的流程和之前一模一樣，只是我們這邊因為是應對更一般的情形，所以偽代碼看起來可能比起之前更加抽象一些。所以，我們這邊再用在線最短路問題（online shortest path）作為例子講解一下。

考慮一個有向圖，點集邊集，和每條邊上的平均旅行時間（mean travel time） $hetain mathbb{R}^E.$ 方便起見，定義節點為起點，節點為終點。我們要在圖上找最短路，但事先不知道我們每個epsiode的action集合就是選擇一條從節點到節點的路徑，得到的反饋便是從的分佈中draw出來的sample， $s_{t,e},ein a_t.$ 因為要找最短路，所以reward就可以是 $r_t=-sum_{ein a_t}x_{t,e}.$

獨立travel time情形：考慮的先驗分佈為彼此獨立的對數高斯分佈，也就是說然後我們令 $x_{t,e}| heta$ 對於每條邊彼此獨立，並且 $log(s_{t,e}| heta) sim N(log( heta_e)- ilde{sigma}^2/2, ilde{sigma}^2).$ 那麼我們就有 $mathbb{E}[ heta_e]=e^{mu_e+sigma_e^2/2},mathbb{E}[s_{t,e}| heta_e]= heta_e.$ （所以一開始mean travel time的belief期望就等於）那麼利用Bayes rule我們就有如下更新後驗分佈的簡單公式：

$(mu_e,sigma_e^2)leftarrow left( frac{mu_e/sigma_e^2+(log(s_{t,e})+ ilde{sigma}^2/2)/ ilde{sigma}^2}{1/sigma^2+1/ ilde{sigma}^2},frac{1}{1/sigma^2+1/ ilde{sigma}^2} ight).$