選自BAIR,作者:Xue Bin (Jason) Peng 和 Angjoo Kanazawa,機器之心編譯。

伯克利曾經提出 DeepMimic 框架,讓智能體模仿參考動作片段來學習高難度技能。但這些參考片段都是經過動作捕捉合成的高度結構化數據,數據本身的獲取需要很高的成本。而近日,他們又更進一步,提出了可以直接模仿 Youtube 視頻人物高難度動作的新框架 SFV。

從 YouTube 視頻中學習技能的智能體

通過 SFV 學習到的智能體動作還原度很高,並且有很好的泛化至新環境的能力,例如從平地泛化到不規則地形。當然,仍然存在一些難以模仿的動作,例如某某鬼畜騎馬舞。

無論是像洗手這樣的日常任務還是驚人的雜技表演,人類都可以通過觀察他人來學習一些令人難以置信的技能。隨著 YouTube 等開源視頻數據的激增,現在我們比以往任何時候都更容易找到感興趣技能的視頻片段。每分鐘都會有 300 小時的視頻傳到 YouTube 上。但是,對機器人來說,從這些海量的視頻中學習技能仍是一項非常艱巨的任務。大多數模仿學習方法都需要簡潔的表徵,比如從動作捕捉(mocap)中記錄的表徵。但是獲取 mocap 數據相當麻煩,通常需要大量儀器。Mocap 系統容易侷限於遮擋較小的室內環境,這會限制能夠記錄的技能類型。所以,如果智能體可以從視頻片段中學習技能就再好不過了。

使用 Mocap 捕捉演員動作並復現 3D 角色的動作(電影《指環王》)

在本文中,我們展示了一個從視頻中學習技能的框架(SFV)。通過將計算機視覺領域最先進的技術與強化學習相結合,我們的系統使智能體能夠從視頻中學習各種技能。給定一個單目視頻,視頻中有人表演側手翻或後空翻等動作,我們的智能體能夠學習在物理模擬中再現該技能的策略,而無需任何手動姿勢注釋。

https://v.qq.com/x/page/h0739u33100.html?

v.qq.com
圖標

從視頻中學習全身動作技能的問題在計算機圖形學中受到了一些關注。以前的技術通常依賴於手工製作的控制結構,這些結構對要做的動作加了很大的限制。因此,這些方法限制了可以學習的技能類型,由此產生的動作也看起來非常不自然。最近,深度學習技術在 Atari 遊戲和簡單的機器人任務中進行視覺模仿取得了不錯的結果。但是這些任務在演示和智能體的環境之間通常只有適度的領域變化,且主要是在動態相對簡單的任務上進行持續控制。

框架

該框架包括三個階段:姿勢估計、動作重建和動作模仿。輸入視頻首先接受第一階段姿勢估計的處理,預測每一幀中角色的姿勢。接下來,動作重建階段將姿勢估計結果固化為參考動作,並修復姿勢估計結果可能帶來的失真。最後,將參考動作輸入到動作模仿階段,利用強化學習訓練智能體模仿動作。

整個流程包含三個步驟:姿勢估計、動作重建及動作模仿。執行特定動作的人物視頻片段和智能體模型充當輸入,並學習一種控制策略,使智能體能夠在物理模擬中再現該動作。

姿勢估計

我們在一個給定的視頻片段中使用一個基於視覺的姿勢估計器來預測動作執行者在每一幀中的姿勢 q_t hat。姿勢估計器建立在人體網格恢復(human mesh recovery)的基礎上,後者使用弱監督對抗性方法來訓練姿勢估計器以預測單目圖像中的姿勢。雖然需要姿勢相關注釋來訓練姿勢估計器,但一旦訓練完畢,姿勢估計器就可以應用於沒有任何標註的新圖像。

基於視覺的姿勢估計器用於預測人物在每一幀中的姿勢

動作重建

由於姿勢估計器針對每個視頻幀獨立預測人物的姿勢,因此各幀之間的預測可能不一致,導致出現抖動雜訊。而且,儘管基於視覺的姿勢估計器在近些年取得了顯著進展,但它們仍然偶爾出一些大錯,導致出現一些奇怪姿勢。這些雜訊可以呈現物理上無法模仿的姿勢。因此,動作重建階段的作用就是減輕這些雜訊,以產生一些物理上更加可行的參照,使智能體更加容易模仿。為了做到這一點,我們優化了一種新的參考動作

,以實現以下目標:

公式中的 l_p(Q hat) 使得參考動作與原始姿勢預測更加接近,L_sm(Q hat) 使得相鄰幀的姿勢更加相似,以生成更加連貫的動作。此外,W_p 和 W_sm 是不同損失的權重。

這一過程可以顯著提高參考動作的質量,並且可以修復原始姿勢預測裏的大量雜訊。

動作重建前後的參考動作對比。動作重建修復了一些失真,使參考動作更加流暢

動作模仿

現在我們得到了參考動作

,接下來我們將訓練智能體模仿該技能。動作模仿階段使用與模擬 mocap 數據類似的強化學習方法。獎勵函數鼓勵策略將每一幀 t 中模仿智能體的姿勢和重建參考動作 q^_t 之間的區別最小化,

這種簡單的方法效果非常的好,智能體能夠學習多種高難度雜技技巧,且每個技巧都僅通過一次視頻展示習得。

智能體通過模仿視頻片段學習多種技巧

結果

總之,我們的智能體可以從 Youtube 的多種視頻剪輯中學習 20 多種不同的技能。

我們的框架可以從視頻演示中學習大量的技能組合

即使智能體的形態和視頻中的人物通常很不相同,其學習到的策略仍然可以重現很多種技能。作為更加極端的形態差異的示例,我們還可以訓練一個虛擬的 Atlas 機器人來模仿人類的視頻剪輯中的動作。

虛擬模擬機器人(Atlas)可以通過模仿視頻剪輯學習多種動作組合

使用虛擬智能體的一個好處是我們可以利用模仿過程來將其行為泛化到新環境中。這裡我們模擬了讓智能體學習適應不規則地形的動作,其中原始的視頻剪輯記錄的是在平地上的人物動作。

智能體在不規則的地形中也能做出模仿動作

即使新環境和原始視頻的環境很不相同,學習演算法依然發展出了非常合理的策略來應對新的環境。

總而言之,我們的框架真的僅僅是使用了任何人都能想到用來解決視頻模仿問題的明顯方法。關鍵在於將問題分解為更好掌控的組成,為這些組成選擇正確的方法,並有效地將它們整合到一起。然而,視頻模仿技能仍然是一個極有挑戰性的問題,目前仍然有大量的視頻剪輯是我們無法重現的。

靈巧的舞步,例如江南 Style,仍然是很難模仿的

但令人鼓舞的是,僅通過整合已有的技術,我們就能在這個難題上走出一大步。

論文:SFV: Reinforcement Learning of Physical Skills from Videos

  • 項目展示頁:xbpeng.github.io/projec
  • 論文地址:xbpeng.github.io/projec

基於動作捕捉的數據驅動的智能體可以生成高度自然的動作,而且與物理模擬相結合時可以提供對物理幹擾、環境變化和形態差異的自然過程響應。動作捕捉仍然是最流行的動作數據來源,但是收集 mocap 數據通常需要配備大量儀器的環境和表演者。在本文中,我們提出了一種方法,使智能體能從視頻中學習技能(SFV)。該方法基於深度姿勢估計和深度強化學習,允許數據驅動的模仿利用網路上的大量公開視頻片段,如 YouTube 上的視頻。這有可能通過查詢所需動作的視頻記錄來實現快速而簡單的人物控制器設計。所產生的控制器對幹擾具有魯棒性,能夠適應新設置,執行基本的對象交互,並能通過強化學習重新定位新形態。我們還進一步證明,該方法可以通過對觀察到的姿勢進行初始化得到的學習控制器進行正向模擬,進而根據靜止圖像預測人物的可能動作。我們的框架能夠學習各種動態技能,包括運動、雜技和武術。

原文鏈接:bair.berkeley.edu/blog/


推薦閱讀:
相關文章