乾明 郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

上回說到,奧巴馬deepfake懟川普,斯嘉麗怒斥網友假視頻。

deepfake,視頻造假神器,把一個人的臉龐,轉移到另一個的身上,讓假新聞輕鬆傳播到全網。

這下,不管是政要還是明星,都被「有視頻有真相」的緋聞纏身,跳進密西西比河洗不清了。

即使是普通人,萬一哪天被人構陷,做了小視頻發到女朋友那裡,恐怕是膝蓋跪鍵盤,有嘴說不清。

因為你看,這些視頻你能辨認出真假?

這張動圖來自一段電視新聞男主播說話的視頻,它是真的嗎?

換這位女主播,她口播的這段視頻是真的嗎?

這位呢?

看起來毫無違和感,實際上,沒有一個是真的

視頻(動圖)上的這些人,從來都沒有做出過這些口型和表情。

而且,這樣的假視頻,最近市面上出現了一大堆,來自一個德國義大利跨國團伙。

這一批視頻里,包含沒處理過的真實視頻和處理過的假視頻。真實視頻都來自YouTube;而假視頻則是他們用三種方法造假生成的。

這批視頻數量也很驚人,總量多達1000段,總共超過150萬幀,原始視頻超過1.5 TB,其中視頻質量最差的也有480p,甚至還有達到1080p的高清視頻。

嗯,沒錯,這個團伙是一群高校里的AI研究者,而這些假視頻,是一個數據集,名叫FaceForensics++

有了這個數據集,就可以訓練神經網路,找到那些被AI換了臉的假視頻,證明你的清白,拯救你的膝蓋、鍵盤和女友。

以AI攻AI

這些假視頻不僅出自不同的造假方法,質量也分三個等級。有原始的輸出視頻RAW、高質量視頻HQ(使用h.264,參數為23進行壓縮)和低質量視頻LQ(參數為40)。

效果怎麼樣呢?肉眼很難分辨

研究團隊先找100多名學生測試了一下,讓他們從兩個視頻中選出哪個是真哪個是假。

在最厲害的造假方法面前,人類學生們的準確率只有40%左右,還不如隨便瞎蒙,可謂是假的比真的還像真的了。

就算是不那麼精緻的假視頻,人類判斷原始視頻的平均準確率也只有72%,高質量視頻71%,低質量視頻因為相對模糊難以辨認,準確率只有61%。

有了足夠多的數據,這個研究團隊,就開始「以AI攻AI」,訓練神經網路,鑒別那些被換臉AI處理過的假視頻。

他們挑選了6個模型,用這些數據訓練一遍之後,識別造假視頻的準確率都比人類的肉眼高得多。

其中最好的模型,準確率達到了99.08%!不過這是在原始的輸出視頻上,在高質量視頻略微降低到97.33%,就算是視頻質量低,準確率還能到86.69%。

與人類的識別能力相比,高了20多個百分點

這個模型是XceptionNet,出自Keras之父Francois Chollet之手,它是一個傳統的CNN網路,是在具有殘差連接的可分離卷積在ImageNet上訓練出來的。

其他的模型雖然沒有它優秀,但也有了很顯著的提升。

在原始視頻上的識別準確率,都能達到95%以上,經過壓縮的高質量視頻上,是被準確率開始有差別,但XceptionNet依舊強勁。

質量較差的視頻上,識別準確率基本上都大幅下降,最低的平均不到60%。但最高的XceptionNet還是能保持在86.69%。

那麼,這個「神奇」的數據集是從哪來的呢?

造假の全過程

我們前邊也提到過,原本都是YouTube上普普通通的視頻,經過三種常用造假手段的改造,就成了這個數據集。

為了讓這些假視頻顯得更加逼真,研究團隊想了不少辦法。

他們找的視頻,裡邊當然都有人臉。這些原視頻一部分來自谷歌YouTube-8M數據集,另一部分則是直接從YouTube網站上扒下來的。

視頻收集好之後,還要用人臉檢測器處理一遍,確保其中人物面部沒被遮擋,再去掉漸變、疊加等過渡效果。最後,再人工篩選,確保視頻質量夠高,以保證後續造假的效果。

造假操作一共分為兩類:

一是轉移面部表情和動作的面部重演( facial reenactment),需要保留目標人的身份,像給視頻里的奧巴馬「施法」一樣,讓他做出一些新的表情。

一是面部交換(face swapping),用原始視頻中人的面部替換目標視頻中人的面部,比如把斯嘉麗的照片貼到愛情動作片女主角的臉上。

正式上手造假時,研究團隊主要選擇了三種方法。分別是用來換臉的FaceSwap、deepfake,和用來換表情的Face2Face。

Face2Face和FaceSwap都是通過重建面部的3D模型,並在3D模型中進行相應的編輯來完成造假。

其中FaceSwap是一個輕量級的編輯工具,使用比較稀疏的面部標記位置,將一個視頻中的臉複製到另一個視頻中的臉上。

相比之下,Face2Face的技術更加複雜,能夠進行面部跟蹤和建模,從而來換表情。

deepfake主要用來執行面部交換的操作,使用自動編碼器用原始視頻中的面部替換目標視頻中的面部。

用這三種方法處理出來的數據集,被分成了訓練、驗證和測試數據集。

其中原始視頻、Face2Face、deepfake的訓練數據集都有36.7萬幀圖像,FaceSwap的較少,只有29.2萬幀。訓練數據集和驗證數據集的規模,都在7萬左右。

用這三種方法處理視頻,都需要將原始視頻和目標視頻作為輸入,最終輸出逼真的假視頻。

假視頻,惹麻煩

在deepfake面世以前,視頻換臉技術存在於電影拍攝中,需要相對較高的技術和資金投入。

而現在,deepfake等技術的出現大大降低了換臉門檻,人們不僅用它來製造政要們的假新聞,還用它來製造女明星的色情片。

寡姐斯嘉麗也是因此才公開表示,她對網路上出現的那些貼了她的臉的deepfake視頻非常憤怒,但卻無可奈何,無法阻止這些視頻四處流傳。

這下,對許多人來說,哪怕是再注意隱私,也無法阻止艷照門流傳了。

去年5月,deepfake已經引起了五角大樓的注意,他們通過美國國防部高級研究計劃局(DARPA)委託全美各地的專家,想方設法檢測各類視頻的真實性。

不久後,DARPA就研發了一款AI工具,能夠自動監測處被換了臉的假視頻,根據假視頻一般不會表現出眨眼、呼吸和眼球運動這些特徵,能夠以99%的準確率識別出假視頻。

不過現在,用不著請美國國防部出山了,只要有了這個FaceForensics++數據集,你也可以DIY訓練AI來甄別假視頻了。

傳送門

論文:

FaceForensics++: Learning to Detect Manipulated Facial Images作者:Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nie?nerarxiv.org/abs/1901.0897

GitHub:

github.com/ondyari/Face

需要數據集的話,請去上面的GitHub頁面,根據說明進行郵件申請。

量子位 · QbitAI

?? ? 追蹤AI技術和產品新動態

戳右上角「+關注」獲取最新資訊↗↗

如果喜歡,請分享or點贊吧~比心?


推薦閱讀:
相关文章