雖然知道市面上不少三方APP也有類似的功能,但還是好奇其中的原理以及Find X2在這方面有什麼自己的優勢嗎?


OPPO在其最新旗艦Find X2系列上所搭載的ColorOS 7.1引入了超級文本的功能,包括文檔校正、文字增強、文字提取、轉文檔格式等,這其中最核心的有兩部分,一是文檔識別和校準技術,一是OCR(Optical Character Recognition, 光學字元識別)技術。

對於文檔識別和校準

曾經,我們將文檔電子化的常用方式是採用專業的掃描儀,但隨著手機的性能提升和手機相機技術的不斷升級,人們慢慢開始在相當多的領域改用手機拍圖來代替專業的文檔掃描複印了。

在手機拍圖中,我們經常會遇到這麼幾個問題:

  • 第一、文本本身的傾斜(印刷裝訂等);
  • 第二、拍攝視角導致的傾斜;
  • 第三、文本本身的彎曲變形。

如下這張照片,是我們日常典型的拍攝場景,這樣的照片對於我們獲取其中的文字信息是非常不利的。

那麼,我們該如何解決這個問題呢?一般包含如下這種方式:

對於線性傾斜便攜的文本圖像,先檢測文本的傾斜角度,然後根據傾斜角度對圖像進行逆向的旋轉。所以線性傾斜變形文本圖像校正的關鍵對其傾斜角度的檢測,包括投影特性法、近鄰法、傅裏葉變換法等;

對於非線性畸變——透視變形和扭曲變形文本圖像,文本圖像的非線性幾何畸變有其自身的特點,據此,一般通過選取若干畸變特徵點,然後通過插值進行畸變曲線的擬合,利用擬合曲線的數求出畸變校正的數學關係式。

(參考文獻:吳麗平. 文本圖像的幾何畸變校正技術研究[D].河北工業大學,2009.)

對於經過矯正後的文字識別,這就是比較常見的技術和應用了,在桌面端已經有非常多的相關工具,我一般會用cajviewer來提取CAJ格式或者PDF格式文獻的文字部分。

文檔矯正和文字識別技術並不鮮見,在手機上,也已經有相當多的第三方軟體可以實現,但目前存在兩個問題:第一、識別精度和校正效果問題;部分第三方軟體需要付費,或者識別後的文檔帶有第三方水印

ColorOS 7.1自帶的文檔自動矯正技術,深度集成到了相機應用中,當我們打開相機的AI開關後,相機對準文檔圖像,就會自動啟用文檔矯正功能,如果我們需要拍攝原圖,關閉AI即可,如圖:

在應用便捷性上,ColorOS自帶超級文本功能肯定是完勝第三方應用,整體的使用體驗非常流暢,那麼其效果如何呢?

我們看看拍攝原圖和校正後的對比:

從圖中我們可以看到,ColorOS自帶超級文本功能整體的文檔識別效果非常不錯,已經能夠將我們日常圖片中的文本信息還原到可用狀態了。

當然,我這兩個例子是為了演示極端狀況下的效果,而我們需要獲得更好一些的文本照片,在拍攝的時候認真一些,注意下對整拍攝呢?如下:

我們可以看到,ColorOS自帶超級文本功能的效果非常不錯,掃描儀基本可以下崗了。

文檔校正功能我們看完了,那麼文字識別效果怎麼樣呢?還是以這張圖為例,打開校正過生成的圖片(注意,必須是AI校正模式下拍攝的圖片,我覺得未來OPPO可以選擇開啟直接對存儲照片的校正),右上角有個「T」字圖標:

點擊圖標進入校正照片處理界面,包括「校正、識別文字、增強和轉文檔按鈕,其中校正界面可以自己二次選擇校正區域,防止AI自動選擇和我們需要的文本部分不一致。

然後點擊識別文字,ColorOS自帶超級文本功能的識別效果如上圖,我個人覺得已經完全可用了。

小結:文檔校正和文字識別並非新技術,目前市面上已經有相應的設備,即便是手機上,目前已經有第三方軟體在支持,但存在整體的易用性不足,校正和文字識別效果不好或者需要付費或者有第三方水印等問題,OPPO選擇將其直接集成到了AI相機上,準確、高效、便利,這是OPPO Find X2中最新ColorOS 7.1自帶超級文本功能和第三方應用的根本區別。


咳咳,超級文本應該採用了OCR(Optical Character Recognition)識別技術,請允許我隆重介紹一下——OCR識別,中文名叫光學字元識別。指電子設備(例如掃描儀或數碼相機)檢查紙上列印的字元,通過檢測暗、亮的模式確定其形狀,然後用字元識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字元,採用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,並通過識別軟體將圖像中的文字轉換成文本格式,供文字處理軟體進一步編輯加工的技術。如何通過識別軟體將圖像中的信息提取或文字轉換文本格式,或者解決除錯和利用輔助信息提高識別的正確率,是OCR識別的最重要課題。


據瞭解Find X2超級文本,是通過平面檢測校正、文檔還原排版、OCR等技術,這些都還是蠻實用。前面兩個都好理解,那什麼是OCR呢?也就是光學字元識別。它的核心技術其實主要包括其中以下幾點:

圖像輸入:要進行OCR識別,第一步就是通過採集所要識別的圖像,可以是名片、身份證、護照、行駛證、駕駛證、公文、文檔等等,然後將圖像輸入到識別核心區域。

圖像進行預處理:此過程包含二值化(像素)、去噪、傾斜度矯正等

版面分析:將所要識別的文檔分段、分行處理

字元切割:此步驟需要字元定位和字元切割,定位出字元串的邊界,然後分別對字元串進行單個切割,單個分割出來的字元再做識別。

字元特徵提取:提取需要的字元特徵,為後面的識別提供依據。

字元識別:將當前字元提取的特徵向量與特徵模板庫進行模板粗分類和模板細匹配,識別出字元。

版面回復:將識別結果按照原來的版面排班,輸出Word或pdf格式的文檔。

後處理校正: 根據特定的語言上下文的關係,對識別結果進行較正的演算法。

在運用中,怎麼衡量OCR性能好壞的主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產品的穩定性及可行性等。


看了很多手機在文本轉文字以及掃描方面的技術和功能,不得不說其實這個核心技術並不難,OCR技術早在1929年就有了雛形,60、70年代各國已經開始逐步發展,一直到現在我們可以用手機去掃描獲得信息。但是基於以往的第三方軟體中,經常存在提取文字不準確、不全面甚至掃描不夠精準,畫面不清晰等問題。不得不說,看了ColorOS 7.1對於角度、文字抓取的細節調整之後,其實優勢大大超過了大多數第三方軟體,不知道有沒有這麼準確的app,但是至少身邊例子來看,這是手機品牌中,唯一可以做到將這個功能如此精細化呈現的,看來find系列是高端商務中的佼佼者,上一次看到的還是華為的mate系列。


這個原理其實挺簡單的,也就是圖像轉文本、轉pdf等文件的功能。這裡面最重要的是識別率及產品化等多方面的因素的要求,目前很多手機已經可以做到跟掃描儀同樣的水平了,但是基於拍攝者的角度、光線以及缺少人工識別問題,針對極端情況,識別率還會出錯,也會有些不方便。其實ColorOS這個超級文檔的定位其實挺對的,目前手機系統模塊中,小功能是挺多的,但是都比較單一和割裂,忽略了便捷性。本身是提高效率的工具,需要多次操作。但是Find X2將這個功能融入AI相機當中,打開相機就可以拍攝進行轉換,看似簡單,卻是效率的倍增。


推薦閱讀:
相關文章