在強化學習中，為什麼TRPO和PPO演算法屬於On-Policy的演算法？

TRPO和PPO都用到了Importance Sampling技術，不應該是Off-policy的嗎？對比之下，使用了Importance Sampling的Monte Carlo演算法就是off-policy的

TRPO和PPO用舊策略採樣得到的樣本可以用來更新多個Epoch，那麼在更新第二個Epoch開始，我們用於採樣的採樣策略（舊策略）和我們要更新的策略（已經在第一個Epoch中被更新過一次的新策略）就不是同一個策略了，那不就是Off-Policy的所定義的嗎？

那麼為什麼我在所有的論文中都說TRPO和PPO屬於On-Policy呢？

同時，A3C因為是非同步的，那麼嚴格來說是不是也是Off-policy的？比如剛開始worker1，woker2，中央網路策略相同。worker1更新了中央網路，然後worker2再去更新中央網路，那麼這個時候worker2的採樣策略和中央網路的策略（已被worker1更新）就不一樣了，which is Off-Policy。

請問我是哪裡理解錯了嗎？

先解釋on policy off policy。

policy iteration分兩步，policy evaluation和policy improvement。在monte carlo policy iteration中，存在兩種policy，一種做採樣完成第一步，也就是在採樣的traj上算value或者advantage，第二種是需要improve的policy。

on-policy在這裡指，採樣策略和改進策略是同一個，off-policy則相反，採樣和需要改進的策略不相同，但是policy evaluation目的是估計改進策略的值，所以在policy improvement會用到importance sampling。

你犯的錯誤是把importance sampling和off-policy劃等號了。

上面說的方法objective是maximize return，但是trpo和ppo的objective不是這個，他們間接地maximize return improvement: R(theta_prime)-R(theta)。R表示return，theta是策略的參數，prime指更新後的參數。在trpo和ppo推導中使用的importance sampling是為了把對pi(theta_prime)的期望換成pi(theta)的，理由是theta_prime是更新後的density我們是不知道的。

trpo和ppo是on policy的，因為做過importance sampling之後，期望是對改進策略的，即採樣就是用當前策略。

希望這個回答有幫助。手機打字見諒。

題主的提問很值得思考，嘗試按我的思考回答一下，可能存在問題，歡迎指正。

先嘗試回答第一個問題：PPO、TRPO為什麼是on-plicy？

TRPO本身是on-policy的，看似和off-policy演算法一樣根據old policy的分佈做importance sampling，區別在於，off-policy的演算法可以使用任意的策略的數據來更新當前的策略，TRPO卻是使用採樣的數據來更新到，符合on-policy的定義，只不過更新中優化的目標函數（surrogate objective function）中有未知的action分佈（與需要優化求解的策略有關），使用了採集的數據和importance sampling係數來估計和表示。