乾明 郭一璞 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
乾明 郭一璞 發自 凹非寺
上回說到,奧巴馬deepfake懟川普,斯嘉麗怒斥網友假視頻。
deepfake,視頻造假神器,把一個人的臉龐,轉移到另一個的身上,讓假新聞輕鬆傳播到全網。
這下,不管是政要還是明星,都被「有視頻有真相」的緋聞纏身,跳進密西西比河洗不清了。
即使是普通人,萬一哪天被人構陷,做了小視頻發到女朋友那裡,恐怕是膝蓋跪鍵盤,有嘴說不清。
因為你看,這些視頻你能辨認出真假?
這張動圖來自一段電視新聞男主播說話的視頻,它是真的嗎?
換這位女主播,她口播的這段視頻是真的嗎?
這位呢?
看起來毫無違和感,實際上,沒有一個是真的。
視頻(動圖)上的這些人,從來都沒有做出過這些口型和表情。
而且,這樣的假視頻,最近市面上出現了一大堆,來自一個德國義大利跨國團伙。
這一批視頻里,包含沒處理過的真實視頻和處理過的假視頻。真實視頻都來自YouTube;而假視頻則是他們用三種方法造假生成的。
這批視頻數量也很驚人,總量多達1000段,總共超過150萬幀,原始視頻超過1.5 TB,其中視頻質量最差的也有480p,甚至還有達到1080p的高清視頻。
嗯,沒錯,這個團伙是一群高校里的AI研究者,而這些假視頻,是一個數據集,名叫FaceForensics++。
有了這個數據集,就可以訓練神經網路,找到那些被AI換了臉的假視頻,證明你的清白,拯救你的膝蓋、鍵盤和女友。
這些假視頻不僅出自不同的造假方法,質量也分三個等級。有原始的輸出視頻RAW、高質量視頻HQ(使用h.264,參數為23進行壓縮)和低質量視頻LQ(參數為40)。
效果怎麼樣呢?肉眼很難分辨。
研究團隊先找100多名學生測試了一下,讓他們從兩個視頻中選出哪個是真哪個是假。
在最厲害的造假方法面前,人類學生們的準確率只有40%左右,還不如隨便瞎蒙,可謂是假的比真的還像真的了。
就算是不那麼精緻的假視頻,人類判斷原始視頻的平均準確率也只有72%,高質量視頻71%,低質量視頻因為相對模糊難以辨認,準確率只有61%。
有了足夠多的數據,這個研究團隊,就開始「以AI攻AI」,訓練神經網路,鑒別那些被換臉AI處理過的假視頻。
他們挑選了6個模型,用這些數據訓練一遍之後,識別造假視頻的準確率都比人類的肉眼高得多。
其中最好的模型,準確率達到了99.08%!不過這是在原始的輸出視頻上,在高質量視頻略微降低到97.33%,就算是視頻質量低,準確率還能到86.69%。
與人類的識別能力相比,高了20多個百分點。
這個模型是XceptionNet,出自Keras之父Francois Chollet之手,它是一個傳統的CNN網路,是在具有殘差連接的可分離卷積在ImageNet上訓練出來的。
其他的模型雖然沒有它優秀,但也有了很顯著的提升。
在原始視頻上的識別準確率,都能達到95%以上,經過壓縮的高質量視頻上,是被準確率開始有差別,但XceptionNet依舊強勁。
質量較差的視頻上,識別準確率基本上都大幅下降,最低的平均不到60%。但最高的XceptionNet還是能保持在86.69%。
那麼,這個「神奇」的數據集是從哪來的呢?
我們前邊也提到過,原本都是YouTube上普普通通的視頻,經過三種常用造假手段的改造,就成了這個數據集。
為了讓這些假視頻顯得更加逼真,研究團隊想了不少辦法。
他們找的視頻,裡邊當然都有人臉。這些原視頻一部分來自谷歌YouTube-8M數據集,另一部分則是直接從YouTube網站上扒下來的。
視頻收集好之後,還要用人臉檢測器處理一遍,確保其中人物面部沒被遮擋,再去掉漸變、疊加等過渡效果。最後,再人工篩選,確保視頻質量夠高,以保證後續造假的效果。
造假操作一共分為兩類:
一是轉移面部表情和動作的面部重演( facial reenactment),需要保留目標人的身份,像給視頻里的奧巴馬「施法」一樣,讓他做出一些新的表情。
一是面部交換(face swapping),用原始視頻中人的面部替換目標視頻中人的面部,比如把斯嘉麗的照片貼到愛情動作片女主角的臉上。
正式上手造假時,研究團隊主要選擇了三種方法。分別是用來換臉的FaceSwap、deepfake,和用來換表情的Face2Face。
Face2Face和FaceSwap都是通過重建面部的3D模型,並在3D模型中進行相應的編輯來完成造假。
其中FaceSwap是一個輕量級的編輯工具,使用比較稀疏的面部標記位置,將一個視頻中的臉複製到另一個視頻中的臉上。
相比之下,Face2Face的技術更加複雜,能夠進行面部跟蹤和建模,從而來換表情。
deepfake主要用來執行面部交換的操作,使用自動編碼器用原始視頻中的面部替換目標視頻中的面部。
用這三種方法處理出來的數據集,被分成了訓練、驗證和測試數據集。
其中原始視頻、Face2Face、deepfake的訓練數據集都有36.7萬幀圖像,FaceSwap的較少,只有29.2萬幀。訓練數據集和驗證數據集的規模,都在7萬左右。
用這三種方法處理視頻,都需要將原始視頻和目標視頻作為輸入,最終輸出逼真的假視頻。
在deepfake面世以前,視頻換臉技術存在於電影拍攝中,需要相對較高的技術和資金投入。
而現在,deepfake等技術的出現大大降低了換臉門檻,人們不僅用它來製造政要們的假新聞,還用它來製造女明星的色情片。
寡姐斯嘉麗也是因此才公開表示,她對網路上出現的那些貼了她的臉的deepfake視頻非常憤怒,但卻無可奈何,無法阻止這些視頻四處流傳。
這下,對許多人來說,哪怕是再注意隱私,也無法阻止艷照門流傳了。
去年5月,deepfake已經引起了五角大樓的注意,他們通過美國國防部高級研究計劃局(DARPA)委託全美各地的專家,想方設法檢測各類視頻的真實性。
不久後,DARPA就研發了一款AI工具,能夠自動監測處被換了臉的假視頻,根據假視頻一般不會表現出眨眼、呼吸和眼球運動這些特徵,能夠以99%的準確率識別出假視頻。
不過現在,用不著請美國國防部出山了,只要有了這個FaceForensics++數據集,你也可以DIY訓練AI來甄別假視頻了。
論文:
GitHub:
https://github.com/ondyari/FaceForensics
需要數據集的話,請去上面的GitHub頁面,根據說明進行郵件申請。
— 完 —
量子位 · QbitAI
?? ? 追蹤AI技術和產品新動態
戳右上角「+關注」獲取最新資訊↗↗
如果喜歡,請分享or點贊吧~比心?