最近 AI 換臉技術發展迅速,例如此前在全球引起軒然大波的 DeepFake,我們前段時間也介紹了更多 AI 換臉的技術和應用。這些逼真的換臉圖片讓人難辨真假,信任與安全都受到威脅。為瞭解決這個問題,學界與業界正在研究如何利用 AI 技術去反向鑒別圖像、視頻的真偽。
AI 換臉與換臉鑒別如同一場攻防戰,目前,最常被使用的 AI 換臉演算法有三種:DeepFake、FaceSwap 和 Face2Face。微軟亞洲研究院研發的換臉鑒別演算法,對人臉合成時難以處理的細節進行檢查,如眼鏡、牙齒、頭髮邊緣、臉部輪廓,將它們作為演算法關注的重點,從而提高識別準確率。在 FaceForensics++ 資料庫的測試結果也均超越了人類肉眼的識別率以及此前業界的最好水平:對於 DeepFake,FaceSwap 和 Face2Face 的鑒別率均超過99.6%。
光學字元識別(OCR)是計算機視覺的重要組成部分之一,它能夠檢測、識別圖片中的文本信息並將其轉換成計算機文字,目前已被廣泛應用於各種企業級和消費級應用場景中,如在機器人流程自動化場景中,可利用 OCR 和文檔理解技術來實現商業文檔票據的信息抽取及錄入、內容審核、歸納搜索等日常文檔處理任務的自動化處理;在增強現實場景中,利用 OCR 技術來提取圖像或視頻中的文字來幫助用戶進行信息檢索或者翻譯。
微軟亞洲研究院發現,近年來的學術研究主要集中在如街景這樣的自然場景圖像的文字檢測和識別上,而忽略了商業文檔、票據場景。過去的一年,微軟亞洲研究院一直致力於新一代 OCR 引擎的研發,以滿足更多場景的需求。
通用文字檢測的目標是主要利用圖像紋理信息,檢測出任意場景圖像中任意語言、任意列印和手寫字體文字的精確位置。根據所檢測文字的粒度,常用的文字檢測演算法可以劃分為三類:字元級別、詞級別和文本行級別。由於單獨依靠圖像紋理信息很難精確標註出所有語言字元級別和詞級別的外接框,比如,對於英文連筆手寫,很難精確地標註出所有字母的外接框;對於中文,由於單詞之間沒有空格,無法直接依靠圖像紋理信息來標註詞的外接框,因此,研究員們認為,文本行級別的文字檢測演算法更適用於通用文字檢測。
從圖像中檢測出任意形狀文本行的精準外接框是一個非常困難的研究問題,這是因為圖像中的文本行具有極大的多樣性,比如具有各種各樣的形狀、大小、方向、排版方式、字元間距,包含各種語言、字元、字體、風格,可能受到拍攝環境的影響產生變形(如透視變換、仿射變換等)、殘缺、模糊斷裂、非均勻光照等等。
相較於其它物體檢測任務,文字檢測任務對檢測出的外接框的精準度要求更高,因為微小的偏差會導致字元的漏檢。此外,某些自然場景圖像中可能包含與文字非常類似的背景紋理,極易造成誤檢。對此,工業界和學術界都投入了大量資源來尋找解決方案,眾多基於卷積神經網路的新型文字檢測演算法湧現出來,並大致可以分為兩類。
一類是把文字檢測看成是一種特殊的物體檢測或者實例分割問題,然後改進最先進的物體檢測或者實例分割框架如 Faster R-CNN, Mask R-CNN 等來檢測任意形狀的文字。這類演算法對於檢測拉丁單詞很有效,但是受限於區域生成網路(Region Proposal Network,RPN)的侷限性,難以有效檢測密集長文本行。另一類演算法是先用物體檢測演算法檢測出文本行片段或用圖像分割演算法從像素級別分割出文本區域,然後利用拼行演算法把文本行片段或文本像素串成文本行,這類演算法的難點在於,如何有效地將文本行片段或文本像素串成文本行。相較於基於文本行片段的演算法,目前基於像素的演算法在任意形狀文字檢測公開數據集上可以得到更好的結果。儘管如此,基於像素的演算法仍然無法有效解決文本行中字元間距較大的問題,這一問題廣泛存在於中文票據、菜單等場景中。
為了進一步解決這些問題,微軟亞洲研究院創新地提出了一套基於關係網路(Relation Network)的新型文字檢測框架[3],主要思想是將文字檢測看成是視覺關係檢測(Visual Relationship Detection)問題而非物體檢測或實例分割問題。