虽然知道市面上不少三方APP也有类似的功能,但还是好奇其中的原理以及Find X2在这方面有什么自己的优势吗?


OPPO在其最新旗舰Find X2系列上所搭载的ColorOS 7.1引入了超级文本的功能,包括文档校正、文字增强、文字提取、转文档格式等,这其中最核心的有两部分,一是文档识别和校准技术,一是OCR(Optical Character Recognition, 光学字元识别)技术。

对于文档识别和校准

曾经,我们将文档电子化的常用方式是采用专业的扫描仪,但随著手机的性能提升和手机相机技术的不断升级,人们慢慢开始在相当多的领域改用手机拍图来代替专业的文档扫描复印了。

在手机拍图中,我们经常会遇到这么几个问题:

  • 第一、文本本身的倾斜(印刷装订等);
  • 第二、拍摄视角导致的倾斜;
  • 第三、文本本身的弯曲变形。

如下这张照片,是我们日常典型的拍摄场景,这样的照片对于我们获取其中的文字信息是非常不利的。

那么,我们该如何解决这个问题呢?一般包含如下这种方式:

对于线性倾斜便携的文本图像,先检测文本的倾斜角度,然后根据倾斜角度对图像进行逆向的旋转。所以线性倾斜变形文本图像校正的关键对其倾斜角度的检测,包括投影特性法、近邻法、傅里叶变换法等;

对于非线性畸变——透视变形和扭曲变形文本图像,文本图像的非线性几何畸变有其自身的特点,据此,一般通过选取若干畸变特征点,然后通过插值进行畸变曲线的拟合,利用拟合曲线的数求出畸变校正的数学关系式。

(参考文献:吴丽平. 文本图像的几何畸变校正技术研究[D].河北工业大学,2009.)

对于经过矫正后的文字识别,这就是比较常见的技术和应用了,在桌面端已经有非常多的相关工具,我一般会用cajviewer来提取CAJ格式或者PDF格式文献的文字部分。

文档矫正和文字识别技术并不鲜见,在手机上,也已经有相当多的第三方软体可以实现,但目前存在两个问题:第一、识别精度和校正效果问题;部分第三方软体需要付费,或者识别后的文档带有第三方水印

ColorOS 7.1自带的文档自动矫正技术,深度集成到了相机应用中,当我们打开相机的AI开关后,相机对准文档图像,就会自动启用文档矫正功能,如果我们需要拍摄原图,关闭AI即可,如图:

在应用便捷性上,ColorOS自带超级文本功能肯定是完胜第三方应用,整体的使用体验非常流畅,那么其效果如何呢?

我们看看拍摄原图和校正后的对比:

从图中我们可以看到,ColorOS自带超级文本功能整体的文档识别效果非常不错,已经能够将我们日常图片中的文本信息还原到可用状态了。

当然,我这两个例子是为了演示极端状况下的效果,而我们需要获得更好一些的文本照片,在拍摄的时候认真一些,注意下对整拍摄呢?如下:

我们可以看到,ColorOS自带超级文本功能的效果非常不错,扫描仪基本可以下岗了。

文档校正功能我们看完了,那么文字识别效果怎么样呢?还是以这张图为例,打开校正过生成的图片(注意,必须是AI校正模式下拍摄的图片,我觉得未来OPPO可以选择开启直接对存储照片的校正),右上角有个「T」字图标:

点击图标进入校正照片处理界面,包括「校正、识别文字、增强和转文档按钮,其中校正界面可以自己二次选择校正区域,防止AI自动选择和我们需要的文本部分不一致。

然后点击识别文字,ColorOS自带超级文本功能的识别效果如上图,我个人觉得已经完全可用了。

小结:文档校正和文字识别并非新技术,目前市面上已经有相应的设备,即便是手机上,目前已经有第三方软体在支持,但存在整体的易用性不足,校正和文字识别效果不好或者需要付费或者有第三方水印等问题,OPPO选择将其直接集成到了AI相机上,准确、高效、便利,这是OPPO Find X2中最新ColorOS 7.1自带超级文本功能和第三方应用的根本区别。


咳咳,超级文本应该采用了OCR(Optical Character Recognition)识别技术,请允许我隆重介绍一下——OCR识别,中文名叫光学字元识别。指电子设备(例如扫描仪或数码相机)检查纸上列印的字元,通过检测暗、亮的模式确定其形状,然后用字元识别方法将形状翻译成计算机文字的过程;即,针对印刷体字元,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软体将图像中的文字转换成文本格式,供文字处理软体进一步编辑加工的技术。如何通过识别软体将图像中的信息提取或文字转换文本格式,或者解决除错和利用辅助信息提高识别的正确率,是OCR识别的最重要课题。


据了解Find X2超级文本,是通过平面检测校正、文档还原排版、OCR等技术,这些都还是蛮实用。前面两个都好理解,那什么是OCR呢?也就是光学字元识别。它的核心技术其实主要包括其中以下几点:

图像输入:要进行OCR识别,第一步就是通过采集所要识别的图像,可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等,然后将图像输入到识别核心区域。

图像进行预处理:此过程包含二值化(像素)、去噪、倾斜度矫正等

版面分析:将所要识别的文档分段、分行处理

字元切割:此步骤需要字元定位和字元切割,定位出字元串的边界,然后分别对字元串进行单个切割,单个分割出来的字元再做识别。

字元特征提取:提取需要的字元特征,为后面的识别提供依据。

字元识别:将当前字元提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字元。

版面回复:将识别结果按照原来的版面排班,输出Word或pdf格式的文档。

后处理校正: 根据特定的语言上下文的关系,对识别结果进行较正的演算法。

在运用中,怎么衡量OCR性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性及可行性等。


看了很多手机在文本转文字以及扫描方面的技术和功能,不得不说其实这个核心技术并不难,OCR技术早在1929年就有了雏形,60、70年代各国已经开始逐步发展,一直到现在我们可以用手机去扫描获得信息。但是基于以往的第三方软体中,经常存在提取文字不准确、不全面甚至扫描不够精准,画面不清晰等问题。不得不说,看了ColorOS 7.1对于角度、文字抓取的细节调整之后,其实优势大大超过了大多数第三方软体,不知道有没有这么准确的app,但是至少身边例子来看,这是手机品牌中,唯一可以做到将这个功能如此精细化呈现的,看来find系列是高端商务中的佼佼者,上一次看到的还是华为的mate系列。


这个原理其实挺简单的,也就是图像转文本、转pdf等文件的功能。这里面最重要的是识别率及产品化等多方面的因素的要求,目前很多手机已经可以做到跟扫描仪同样的水平了,但是基于拍摄者的角度、光线以及缺少人工识别问题,针对极端情况,识别率还会出错,也会有些不方便。其实ColorOS这个超级文档的定位其实挺对的,目前手机系统模块中,小功能是挺多的,但是都比较单一和割裂,忽略了便捷性。本身是提高效率的工具,需要多次操作。但是Find X2将这个功能融入AI相机当中,打开相机就可以拍摄进行转换,看似简单,却是效率的倍增。


推荐阅读:
相关文章