人工智慧及其應用的發展速度遠超想像,在NVIDIA面前更是如此。

NVIDIA剛剛在NeurIPS大會上展示了一項新的人工智慧應用,可以看作是一個駕駛模擬系統,特點是其中的視頻內容由AI生成,你可通過真實方向盤來控制視頻內的車輛。

可能第一眼看上去並無太大差異,只是略微有些模糊而已。然而,我要告訴你的是:這是一段通過AI技術並結合遊戲引擎實時生成的虛擬視頻

視頻內的場景布局逼真、自然,車輛行駛流暢,超乎了我的想像。雖然仔細看仍能看出一些不真實的地方,但依然會大吃一驚。不禁反問,這還是那個曾經為了提升遊戲畫面不斷推出更高性能顯卡的NVIDIA嗎?

視頻的「生成」

NVIDIA深度學習應用副總裁Bryan Catanzaro向外媒The Verge講到:「這是通過深度學習渲染視頻的新方式。很顯然,NVIDIA非常關心圖像的生成,同時我們還在思考如何通過人工智慧改變這一領域。」

首先,我們來回憶一下日常看到的視頻都是如何完成的。從視頻內容的虛實角度來看,視頻內容可以分為以下兩大類:

第一類是直接拍攝的實拍視頻,通過相機來直接拍攝的真實圖像。

第二類是動畫、CG渲染等方式生成的虛擬視頻,例如遊戲、動畫電影等,甚至有些遊戲場景畫面已經足夠接近現實,甚至達到超現實主義畫風,比真實場景更討好的觀感。

而今天NVIDIA針對的就是第二類,虛擬視頻的生成。相信很多影視製作、遊戲製作領域的朋友對此都不陌生。

遊戲引擎們

遊戲製作領域,製作者通常會採用大公司推出的較為成熟的引擎,例如Unity、Unreal Engine等。甚至也有些大的遊戲公司擁有自己的遊戲引擎,EA公司的寒霜、育碧公司的Realblast引擎等。

而在CG領域,同樣也會結合到遊戲引擎,甚至為了解決遊戲實時的光線追蹤難題,NVIDIA已經推出民用級NVIDIA RTX系列顯卡,進一步下探了製作和應用上的局限。

AI變革視頻渲染方式

很顯然,NVIDIA展示的視頻並不是真實的場景。其中,一個重要的識別方式在於它比較模糊,沒有那麼清晰。作為對比,當下售價200元左右的行車記錄儀拍攝的視頻也比上圖要清晰。

實際上,這背後的技術並不新穎。早在今年8月份,NVIDIA就公布了一套名為vid2vid的視頻轉換方法,並隨之在Arxiv公布論文。

論文提到如何基於現有技術實現該方案的方式,其中包括了一個名為pix2pix的開源系統,並由此開發了一套生成式對抗網路模型(GAN)。這些技術都是當前角為成熟的AI圖像生成方式,包括此前由佳士得拍賣出的首個AI創作的畫作,也是基於此模型創作誕生的。

這裡簡單講一下幾者的不同。

GAN:生成式對抗網路模型,通過自我判斷真假來不斷強化學習的圖像生成技術,不足在於不受人為控制,且畫面解析度和質量較低;

pix2pix:可以理解為GAN升級版,特點是支持有條件輸入,通過成對的數據進行訓練,點此體驗草圖生成圖片。pix2pixHD:pix2pix高階版,可生成高解析度、更高質量的圖像。

當然,這僅僅是一個駕駛模擬系統,你可以通過方向盤來控制視頻內的車輛駕駛,走幾個街區都沒有問題,場景非常簡單而且局限,你不能離開汽車,也不能與場景互動。也就是說,這套系統目前只有駕駛員視角。

在NVIDIA看來,這其中最值得炫耀的就是它只通過一塊顯卡即可完成,雖然我們猜測可能是剛剛發布的Titan系列顯卡,價格上並不親民。

左上角:視頻分割圖;右上角:pix2pixHD;左下角:COVST;右下角:Nvidia vid2vid

據悉,NVIDIA的這段演示場景製作分為三個步驟:

1,研究人員收集大量的訓練數據,數據來自於自動駕駛的開源數據集;

2,將視頻內容分割,具體到每一幀,同時將每一幀的圖像進行識別後分類,例如圖像中的汽車、天空、樹木、建築等都有了明確分類;

3,對分類數據進行GAN訓練,從而生成新的版本4,工程師基於UE4遊戲引擎創建出虛擬環境的基礎框架;5,在此框架,基於深度學習演算法實時生成每個不同類別的圖像,然後將不同類別的圖像與遊戲引擎相結合。

Catanzaro表示:「一個視頻場景的結構從傳統角度來看都是被創造出來的, 而人工智慧生成的圖像,但又不僅僅是圖像那麼簡單。」這本身僅僅是一個演示Demo,並不能看作是一款遊戲模型。

系統難點

在一段效果還不錯的視頻渲染技術Demo背後,是NVIDIA工程師不斷攻破技術難點而努力的結果。

據了解,這其中最大的難點在於如何保持對象的持久性,在視頻為25幀的速率下如何讓對象持續且看上去足夠連貫。Catanzaro談到:「由於每一幀的顏色和紋理都會發生變化,因此這也是最頭疼的問題。」

不過,工程師仍然找到一個解決方案,就是給系統增加了一個短期記憶的能力。其作用是將每一幀圖像與前一幀圖像比較,從中預測圖像的運動方向和軌跡,從而創建出一個與之運動方向相同的新幀。

左上角:地面實拍;右上角:PredNet;左下角:MCNet;右下角:NVIDIA

雖然解決了圖像穩定性的問題,但是也隨之而來帶來一個新的困擾。由於上個步驟用於判斷和預測圖像運動方向所需大量算力,因此當前的Demo僅能以25幀/秒的速度運行。

「這項時技術處於早期階段,隨著人工智慧技術的不斷演進成熟,可能需要幾十年的時間才能普及到消費級應用場景中。」Catanzaro談到,同時也談到和光線追蹤技術的對比。光線追蹤技術是當前圖形渲染的熱門技術,不過由於種種限制,直到幾周前才得以在遊戲中展開應用,雖然它最初展現在大家面前已經是很多年之前了。

應用領域

正因為當前這套系統還處於開發階段,因此前在的應用場景也非常廣泛。首先能想到的就機器人、自動駕駛廠商用於環境訓練,用於自我模擬訓練。

當然,這相技術真正令我興奮的則是應用在遊戲製作、電影製作以及VR領域。利用AI技術製作大量相似的人物或場景,讓內容製作變得更輕鬆。

ZEPETO應用

甚至是當前火熱的社交應用ZEPETO,我們可通過AI技術在遊戲中創建出更逼真的卡通畫的頭像,甚至是動態的人物形象等。

甚至外媒也指出了另一點擔心,未來可能會有一些通過AI技術製作的虛假的政治人物視頻,用於虛假的傳播。當然,技術本身並沒有對錯,這一點實際上是很難避免的。

Catanzaro則表示,通過這項技術創建出誤導性的內容並不是新出現的問題,在此之前通過任何渲染手段都可以做到這一點。他認為,NVIDIA正在與合作夥伴聯合研究檢測虛擬AI成品的方法。最終發現,這是一個「信任問題」,並不能單單靠技術來解決。

推薦閱讀:

相关文章