#前言

這門課網上有2017版和2018版,b站上都能找到資源。

2018版的ai研習社有中文翻譯,不過只出了8集,翻譯有的地方有些錯誤,不過不是很影響理解(自動翻譯那個就別看了,完全看不懂)。

我是下好了原版視頻,然後從youtube上把字幕下載下來,把字幕中所有單詞跑一遍翻譯,做了一個excel,相當於一個小詞典了。這樣的話,可以把視頻速度調慢一點,看英文字幕,順便提升英語水平。(順便吐槽百度的翻譯介面是真的次,一開始示例代碼就是python2,沒有python3的。後來平臺還升級,普通用戶每秒鐘只能訪問1次,高級用戶還要次月生效,真的rz。)

之前對強化學習已經看了一些課程了,前面也有寫到,但是因為孤軍奮戰麼,也沒什麼人交流,所以總是覺得自己很多問題沒有喫透,論文也遲遲難以推進,所以刷了一下這門課程。


#正文

##1 Introduction and Course Overview

1、講了一些課程要求,需要有一定的機器學習基礎。介紹了一下老師和作業要求。這門課主要是針對碩博開設。一般是用tensorflow

來完成。

2、關於智能體的設計理念。和監督學習對比的演算法流程。

3、舉了一些智能體的例子,包括遊戲、機器人、交通控制等。

4、講了一下獎勵機制,舉例。

5、結合人腦簡單展開講了一下智能體可能的構建方式。

6、講了深度學習

的意義所在,現有深度強化學習的水平,和存在問題(或者說是研究前景 )。

-----------------------------------------------------------------------------------------------

##2 Supervised Learning and Imitation

1、對環境如何建模,馬爾科夫

決策過程。強化學習和控制對建模的符號不同。

2、以自動駕駛為例講了一下模仿學習。包括整個的智能體結構和智能體的決策分佈形態,講了一下由於分佈差導致的問題。

3、為了縮小分佈差距,引入dagger演算法。

4、講了一下dagger的特點。

5、智能體難以擬合專家決策的兩個原因

第一個是非馬爾科夫行為,就是不符合馬爾科夫決策過程。決策不止與現在有關,還與之前的狀態有關。因為人的決策一般是非馬爾科夫的。

解決方案:lstm,rnn

第二個是多模態行為,具體定義說不太好。老師舉了個例子,一棵樹你可以從左面走,也可以從右面走,但是機器可能學到一條腿一邊劈叉走…………這個問題在離散行為上問題不大,可以選兩邊,但是連續動作可能就會劈叉走了。

解決方案

a.Output mixture of Gaussians

輸出多個高斯分佈,根據權重混合。可以擬合較複雜的分佈。但是如果分佈過於複雜,很難很好的擬合。

b.Latent variable models

在輸入層加入雜訊,通過雜訊產生的誤差來使改變分佈。不過直接加雜訊不行,需要其他的方法進行更細化的處理。

c.Autoregressive discretization

重新設計網路結構。多維的時候需要一個維度一個維度的離散化,每一個維度的離散化結果和下一個維度的數據一起輸入到下一個網路。

6、舉了幾個模仿學習的例子和存在問題

7、一頓分析推導,得出了分佈不同所導致的誤差界限。

8、一些應用中的獎勵函數,獎勵設定需要結合具體情況。


推薦閱讀:
相關文章