「跨國視頻造假窩點」曝光!這個大規模數據集,幫AI揪出99%換臉視頻 乾明 郭一璞 發自 凹非寺 量子位 報道 | 公眾號 QbitAI 上回說到,奧巴馬deepfake懟川普,斯嘉麗怒斥網友假視頻。deepfake,視頻造假神器,把一個人的臉龐,轉移到另一個的身上,讓假新聞輕鬆傳播到全網。這下,不管是政要還是明星,都被「有視頻有真相」的緋聞纏身,跳進密西西比河洗不清了。即使是普通人,萬一哪天被人構陷,做了小視頻發到女朋友那裡,恐怕是膝蓋跪鍵盤,有嘴說不清。 因為你看,這些視頻你能辨認出真假? 這張動圖來自一段電視新聞男主播說話的視頻,它是真的嗎? 換這位女主播,她口播的這段視頻是真的嗎? 這位呢?看起來毫無違和感,實際上,沒有一個是真的。視頻(動圖)上的這些人,從來都沒有做出過這些口型和表情。而且,這樣的假視頻,最近市面上出現了一大堆,來自一個德國義大利跨國團夥。這一批視頻裏,包含沒處理過的真實視頻和處理過的假視頻。真實視頻都來自YouTube;而假視頻則是他們用三種方法造假生成的。這批視頻數量也很驚人,總量多達1000段,總共超過150萬幀,原始視頻超過1.5 TB,其中視頻質量最差的也有480p,甚至還有達到1080p的高清視頻。嗯,沒錯,這個團夥是一羣高校裏的AI研究者,而這些假視頻,是一個數據集,名叫FaceForensics++。有了這個數據集,就可以訓練神經網路,找到那些被AI換了臉的假視頻,證明你的清白,拯救你的膝蓋、鍵盤和女友。 以AI攻AI 這些假視頻不僅出自不同的造假方法,質量也分三個等級。有原始的輸出視頻RAW、高質量視頻HQ(使用h.264,參數為23進行壓縮)和低質量視頻LQ(參數為40)。效果怎麼樣呢?肉眼很難分辨。研究團隊先找100多名學生測試了一下,讓他們從兩個視頻中選出哪個是真哪個是假。在最厲害的造假方法面前,人類學生們的準確率只有40%左右,還不如隨便瞎蒙,可謂是假的比真的還像真的了。 就算是不那麼精緻的假視頻,人類判斷原始視頻的平均準確率也只有72%,高質量視頻71%,低質量視頻因為相對模糊難以辨認,準確率只有61%。有了足夠多的數據,這個研究團隊,就開始「以AI攻AI」,訓練神經網路,鑒別那些被換臉AI處理過的假視頻。他們挑選了6個模型,用這些數據訓練一遍之後,識別造假視頻的準確率都比人類的肉眼高得多。 其中最好的模型,準確率達到了99.08%!不過這是在原始的輸出視頻上,在高質量視頻略微降低到97.33%,就算是視頻質量低,準確率還能到86.69%。與人類的識別能力相比,高了20多個百分點。這個模型是XceptionNet,出自Keras之父Francois Chollet之手,它是一個傳統的CNN網路,是在具有殘差連接的可分離卷積在ImageNet上訓練出來的。其他的模型雖然沒有它優秀,但也有了很顯著的提升。 在原始視頻上的識別準確率,都能達到95%以上,經過壓縮的高質量視頻上,是被準確率開始有差別,但XceptionNet依舊強勁。質量較差的視頻上,識別準確率基本上都大幅下降,最低的平均不到60%。但最高的XceptionNet還是能保持在86.69%。那麼,這個「神奇」的數據集是從哪來的呢? 造假の全過程 我們前邊也提到過,原本都是YouTube上普普通通的視頻,經過三種常用造假手段的改造,就成了這個數據集。為了讓這些假視頻顯得更加逼真,研究團隊想了不少辦法。他們找的視頻,裡邊當然都有人臉。這些原視頻一部分來自谷歌YouTube-8M數據集,另一部分則是直接從YouTube網站上扒下來的。視頻收集好之後,還要用人臉檢測器處理一遍,確保其中人物面部沒被遮擋,再去掉漸變、疊加等過渡效果。最後,再人工篩選,確保視頻質量夠高,以保證後續造假的效果。造假操作一共分為兩類:一是轉移面部表情和動作的面部重演( facial reenactment),需要保留目標人的身份,像給視頻裏的奧巴馬「施法」一樣,讓他做出一些新的表情。一是面部交換(face swapping),用原始視頻中人的面部替換目標視頻中人的面部,比如把斯嘉麗的照片貼到愛情動作片女主角的臉上。 正式上手造假時,研究團隊主要選擇了三種方法。分別是用來換臉的FaceSwap、deepfake,和用來換表情的Face2Face。Face2Face和FaceSwap都是通過重建面部的3D模型,並在3D模型中進行相應的編輯來完成造假。其中FaceSwap是一個輕量級的編輯工具,使用比較稀疏的面部標記位置,將一個視頻中的臉複製到另一個視頻中的臉上。相比之下,Face2Face的技術更加複雜,能夠進行面部跟蹤和建模,從而來換表情。deepfake主要用來執行面部交換的操作,使用自動編碼器用原始視頻中的面部替換目標視頻中的面部。用這三種方法處理出來的數據集,被分成了訓練、驗證和測試數據集。其中原始視頻、Face2Face、deepfake的訓練數據集都有36.7萬幀圖像,FaceSwap的較少,只有29.2萬幀。訓練數據集和驗證數據集的規模,都在7萬左右。 用這三種方法處理視頻,都需要將原始視頻和目標視頻作為輸入,最終輸出逼真的假視頻。 假視頻,惹麻煩 在deepfake面世以前,視頻換臉技術存在於電影拍攝中,需要相對較高的技術和資金投入。而現在,deepfake等技術的出現大大降低了換臉門檻,人們不僅用它來製造政要們的假新聞,還用它來製造女明星的色情片。寡姐斯嘉麗也是因此才公開表示,她對網路上出現的那些貼了她的臉的deepfake視頻非常憤怒,但卻無可奈何,無法阻止這些視頻四處流傳。 這下,對許多人來說,哪怕是再注意隱私,也無法阻止艷照門流傳了。去年5月,deepfake已經引起了五角大樓的注意,他們通過美國國防部高級研究計劃局(DARPA)委託全美各地的專家,想方設法檢測各類視頻的真實性。不久後,DARPA就研發了一款AI工具,能夠自動監測處被換了臉的假視頻,根據假視頻一般不會表現出眨眼、呼吸和眼球運動這些特徵,能夠以99%的準確率識別出假視頻。不過現在,用不著請美國國防部出山了,只要有了這個FaceForensics++數據集,你也可以DIY訓練AI來甄別假視頻了。 傳送門 論文:FaceForensics++: Learning to Detect Manipulated Facial Images作者:Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nie?nerhttps://arxiv.org/abs/1901.08971GitHub: https://github.com/ondyari/FaceForensics需要數據集的話,請去上面的GitHub頁面,根據說明進行郵件申請。— 完 —量子位 · QbitAI?? ? 追蹤AI技術和產品新動態戳右上角「+關注」獲取最新資訊↗↗如果喜歡,請分享or點贊吧~比心? 推薦閱讀: 相關文章 {{#data}} {{title}} {{/data}}