「跨國視頻造假窩點」曝光！這個大規模數據集，幫AI揪出99%換臉視頻

乾明郭一璞發自凹非寺
量子位報道 | 公眾號 QbitAI

上回說到，奧巴馬deepfake懟川普，斯嘉麗怒斥網友假視頻。

deepfake，視頻造假神器，把一個人的臉龐，轉移到另一個的身上，讓假新聞輕鬆傳播到全網。

這下，不管是政要還是明星，都被「有視頻有真相」的緋聞纏身，跳進密西西比河洗不清了。

即使是普通人，萬一哪天被人構陷，做了小視頻發到女朋友那裡，恐怕是膝蓋跪鍵盤，有嘴說不清。

因為你看，這些視頻你能辨認出真假？

這張動圖來自一段電視新聞男主播說話的視頻，它是真的嗎？

換這位女主播，她口播的這段視頻是真的嗎？

這位呢？

看起來毫無違和感，實際上，沒有一個是真的。

視頻（動圖）上的這些人，從來都沒有做出過這些口型和表情。

而且，這樣的假視頻，最近市面上出現了一大堆，來自一個德國義大利跨國團夥。

這一批視頻裏，包含沒處理過的真實視頻和處理過的假視頻。真實視頻都來自YouTube；而假視頻則是他們用三種方法造假生成的。

這批視頻數量也很驚人，總量多達1000段，總共超過150萬幀，原始視頻超過1.5 TB，其中視頻質量最差的也有480p，甚至還有達到1080p的高清視頻。

嗯，沒錯，這個團夥是一羣高校裏的AI研究者，而這些假視頻，是一個數據集，名叫FaceForensics++。

有了這個數據集，就可以訓練神經網路，找到那些被AI換了臉的假視頻，證明你的清白，拯救你的膝蓋、鍵盤和女友。

以AI攻AI

這些假視頻不僅出自不同的造假方法，質量也分三個等級。有原始的輸出視頻RAW、高質量視頻HQ（使用h.264，參數為23進行壓縮）和低質量視頻LQ（參數為40）。

效果怎麼樣呢？肉眼很難分辨。

研究團隊先找100多名學生測試了一下，讓他們從兩個視頻中選出哪個是真哪個是假。

在最厲害的造假方法面前，人類學生們的準確率只有40%左右，還不如隨便瞎蒙，可謂是假的比真的還像真的了。

就算是不那麼精緻的假視頻，人類判斷原始視頻的平均準確率也只有72%，高質量視頻71%，低質量視頻因為相對模糊難以辨認，準確率只有61%。

有了足夠多的數據，這個研究團隊，就開始「以AI攻AI」，訓練神經網路，鑒別那些被換臉AI處理過的假視頻。

他們挑選了6個模型，用這些數據訓練一遍之後，識別造假視頻的準確率都比人類的肉眼高得多。

其中最好的模型，準確率達到了99.08％！不過這是在原始的輸出視頻上，在高質量視頻略微降低到97.33％，就算是視頻質量低，準確率還能到86.69％。

與人類的識別能力相比，高了20多個百分點。

這個模型是XceptionNet，出自Keras之父Francois Chollet之手，它是一個傳統的CNN網路，是在具有殘差連接的可分離卷積在ImageNet上訓練出來的。

其他的模型雖然沒有它優秀，但也有了很顯著的提升。

在原始視頻上的識別準確率，都能達到95%以上，經過壓縮的高質量視頻上，是被準確率開始有差別，但XceptionNet依舊強勁。

質量較差的視頻上，識別準確率基本上都大幅下降，最低的平均不到60%。但最高的XceptionNet還是能保持在86.69％。

那麼，這個「神奇」的數據集是從哪來的呢？

造假の全過程

我們前邊也提到過，原本都是YouTube上普普通通的視頻，經過三種常用造假手段的改造，就成了這個數據集。

為了讓這些假視頻顯得更加逼真，研究團隊想了不少辦法。

他們找的視頻，裡邊當然都有人臉。這些原視頻一部分來自谷歌YouTube-8M數據集，另一部分則是直接從YouTube網站上扒下來的。

視頻收集好之後，還要用人臉檢測器處理一遍，確保其中人物面部沒被遮擋，再去掉漸變、疊加等過渡效果。最後，再人工篩選，確保視頻質量夠高，以保證後續造假的效果。

造假操作一共分為兩類：

一是轉移面部表情和動作的面部重演（ facial reenactment），需要保留目標人的身份，像給視頻裏的奧巴馬「施法」一樣，讓他做出一些新的表情。

一是面部交換（face swapping），用原始視頻中人的面部替換目標視頻中人的面部，比如把斯嘉麗的照片貼到愛情動作片女主角的臉上。

正式上手造假時，研究團隊主要選擇了三種方法。分別是用來換臉的FaceSwap、deepfake，和用來換表情的Face2Face。

Face2Face和FaceSwap都是通過重建面部的3D模型，並在3D模型中進行相應的編輯來完成造假。

其中FaceSwap是一個輕量級的編輯工具，使用比較稀疏的面部標記位置，將一個視頻中的臉複製到另一個視頻中的臉上。

相比之下，Face2Face的技術更加複雜，能夠進行面部跟蹤和建模，從而來換表情。

deepfake主要用來執行面部交換的操作，使用自動編碼器用原始視頻中的面部替換目標視頻中的面部。

用這三種方法處理出來的數據集，被分成了訓練、驗證和測試數據集。

其中原始視頻、Face2Face、deepfake的訓練數據集都有36.7萬幀圖像，FaceSwap的較少，只有29.2萬幀。訓練數據集和驗證數據集的規模，都在7萬左右。

用這三種方法處理視頻，都需要將原始視頻和目標視頻作為輸入，最終輸出逼真的假視頻。

假視頻，惹麻煩

在deepfake面世以前，視頻換臉技術存在於電影拍攝中，需要相對較高的技術和資金投入。

而現在，deepfake等技術的出現大大降低了換臉門檻，人們不僅用它來製造政要們的假新聞，還用它來製造女明星的色情片。

寡姐斯嘉麗也是因此才公開表示，她對網路上出現的那些貼了她的臉的deepfake視頻非常憤怒，但卻無可奈何，無法阻止這些視頻四處流傳。

這下，對許多人來說，哪怕是再注意隱私，也無法阻止艷照門流傳了。

去年5月，deepfake已經引起了五角大樓的注意，他們通過美國國防部高級研究計劃局（DARPA）委託全美各地的專家，想方設法檢測各類視頻的真實性。

不久後，DARPA就研發了一款AI工具，能夠自動監測處被換了臉的假視頻，根據假視頻一般不會表現出眨眼、呼吸和眼球運動這些特徵，能夠以99%的準確率識別出假視頻。

不過現在，用不著請美國國防部出山了，只要有了這個FaceForensics++數據集，你也可以DIY訓練AI來甄別假視頻了。

傳送門

論文：

FaceForensics++: Learning to Detect Manipulated Facial Images作者：Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nie?nerhttps://arxiv.org/abs/1901.08971

GitHub：

https://github.com/ondyari/FaceForensics

需要數據集的話，請去上面的GitHub頁面，根據說明進行郵件申請。

— 完 —

量子位 · QbitAI

?? ? 追蹤AI技術和產品新動態

戳右上角「+關注」獲取最新資訊↗↗

如果喜歡，請分享or點贊吧~比心?