伯克利Deep Reinforcement Learning-1
#前言
這門課網上有2017版和2018版,b站上都能找到資源。
2018版的ai研習社有中文翻譯,不過只出了8集,翻譯有的地方有些錯誤,不過不是很影響理解(自動翻譯那個就別看了,完全看不懂)。
我是下好了原版視頻,然後從youtube上把字幕下載下來,把字幕中所有單詞跑一遍翻譯,做了一個excel,相當於一個小詞典了。這樣的話,可以把視頻速度調慢一點,看英文字幕,順便提升英語水平。(順便吐槽百度的翻譯介面是真的次,一開始示例代碼就是python2,沒有python3的。後來平臺還升級,普通用戶每秒鐘只能訪問1次,高級用戶還要次月生效,真的rz。)
之前對強化學習已經看了一些課程了,前面也有寫到,但是因為孤軍奮戰麼,也沒什麼人交流,所以總是覺得自己很多問題沒有喫透,論文也遲遲難以推進,所以刷了一下這門課程。
#正文
##1 Introduction and Course Overview
1、講了一些課程要求,需要有一定的機器學習基礎。介紹了一下老師和作業要求。這門課主要是針對碩博開設。一般是用tensorflow來完成。
2、關於智能體的設計理念。和監督學習對比的演算法流程。
3、舉了一些智能體的例子,包括遊戲、機器人、交通控制等。
4、講了一下獎勵機制,舉例。
5、結合人腦簡單展開講了一下智能體可能的構建方式。
6、講了深度學習的意義所在,現有深度強化學習的水平,和存在問題(或者說是研究前景 )。
-----------------------------------------------------------------------------------------------
##2 Supervised Learning and Imitation
1、對環境如何建模,馬爾科夫決策過程。強化學習和控制對建模的符號不同。
2、以自動駕駛為例講了一下模仿學習。包括整個的智能體結構和智能體的決策分佈形態,講了一下由於分佈差導致的問題。
3、為了縮小分佈差距,引入dagger演算法。