DeepMind 發布新獎勵機制：讓智能體不再「碰瓷」

【新智元導讀】近日，DeepMind 設計了一個新的智能體獎勵機制，避免了不必要的副作用 (side effect)，對優化智能體所在環境有著重要的意義。

我們先來考慮一個場景：

在強化學習過程中，有一個智能體的任務是把一個盒子從 A 點搬運到 B 點，若是它能在較短時間內完成這個任務，那麼它就會得到一定獎勵。

但在到達 B 點的最路徑上有一個花瓶，智能體是沒有任何動機繞著花瓶走的，因為獎勵機制沒有說明任何有關這個花瓶的事情。

選擇一個基線