最近 AI 换脸技术发展迅速,例如此前在全球引起轩然大波的 DeepFake,我们前段时间也介绍了更多 AI 换脸的技术和应用。这些逼真的换脸图片让人难辨真假,信任与安全都受到威胁。为了解决这个问题,学界与业界正在研究如何利用 AI 技术去反向鉴别图像、视频的真伪。
AI 换脸与换脸鉴别如同一场攻防战,目前,最常被使用的 AI 换脸演算法有三种:DeepFake、FaceSwap 和 Face2Face。微软亚洲研究院研发的换脸鉴别演算法,对人脸合成时难以处理的细节进行检查,如眼镜、牙齿、头发边缘、脸部轮廓,将它们作为演算法关注的重点,从而提高识别准确率。在 FaceForensics++ 资料库的测试结果也均超越了人类肉眼的识别率以及此前业界的最好水平:对于 DeepFake,FaceSwap 和 Face2Face 的鉴别率均超过99.6%。
光学字元识别(OCR)是计算机视觉的重要组成部分之一,它能够检测、识别图片中的文本信息并将其转换成计算机文字,目前已被广泛应用于各种企业级和消费级应用场景中,如在机器人流程自动化场景中,可利用 OCR 和文档理解技术来实现商业文档票据的信息抽取及录入、内容审核、归纳搜索等日常文档处理任务的自动化处理;在增强现实场景中,利用 OCR 技术来提取图像或视频中的文字来帮助用户进行信息检索或者翻译。
微软亚洲研究院发现,近年来的学术研究主要集中在如街景这样的自然场景图像的文字检测和识别上,而忽略了商业文档、票据场景。过去的一年,微软亚洲研究院一直致力于新一代 OCR 引擎的研发,以满足更多场景的需求。
通用文字检测的目标是主要利用图像纹理信息,检测出任意场景图像中任意语言、任意列印和手写字体文字的精确位置。根据所检测文字的粒度,常用的文字检测演算法可以划分为三类:字元级别、词级别和文本行级别。由於单独依靠图像纹理信息很难精确标注出所有语言字元级别和词级别的外接框,比如,对于英文连笔手写,很难精确地标注出所有字母的外接框;对于中文,由於单词之间没有空格,无法直接依靠图像纹理信息来标注词的外接框,因此,研究员们认为,文本行级别的文字检测演算法更适用于通用文字检测。
从图像中检测出任意形状文本行的精准外接框是一个非常困难的研究问题,这是因为图像中的文本行具有极大的多样性,比如具有各种各样的形状、大小、方向、排版方式、字元间距,包含各种语言、字元、字体、风格,可能受到拍摄环境的影响产生变形(如透视变换、仿射变换等)、残缺、模糊断裂、非均匀光照等等。
相较于其它物体检测任务,文字检测任务对检测出的外接框的精准度要求更高,因为微小的偏差会导致字元的漏检。此外,某些自然场景图像中可能包含与文字非常类似的背景纹理,极易造成误检。对此,工业界和学术界都投入了大量资源来寻找解决方案,众多基于卷积神经网路的新型文字检测演算法涌现出来,并大致可以分为两类。
一类是把文字检测看成是一种特殊的物体检测或者实例分割问题,然后改进最先进的物体检测或者实例分割框架如 Faster R-CNN, Mask R-CNN 等来检测任意形状的文字。这类演算法对于检测拉丁单词很有效,但是受限于区域生成网路(Region Proposal Network,RPN)的局限性,难以有效检测密集长文本行。另一类演算法是先用物体检测演算法检测出文本行片段或用图像分割演算法从像素级别分割出文本区域,然后利用拼行演算法把文本行片段或文本像素串成文本行,这类演算法的难点在于,如何有效地将文本行片段或文本像素串成文本行。相较于基于文本行片段的演算法,目前基于像素的演算法在任意形状文字检测公开数据集上可以得到更好的结果。尽管如此,基于像素的演算法仍然无法有效解决文本行中字元间距较大的问题,这一问题广泛存在于中文票据、菜单等场景中。
为了进一步解决这些问题,微软亚洲研究院创新地提出了一套基于关系网路(Relation Network)的新型文字检测框架[3],主要思想是将文字检测看成是视觉关系检测(Visual Relationship Detection)问题而非物体检测或实例分割问题。