很多人覺得做一個 OCR 軟體有什麼難的,現在百度、騰訊、谷歌那麼多商用介面,我調用一下介面就好呀。確實,調用介面確實能完成這個事,但是要把這件事做的更優秀,那還是有很多事需要自己做的。

做一個 OCR 應用需要哪些技術

圖像壓縮技術

使用第三方的 OCR 介面,要把圖片傳到他們的伺服器,然後返回識別結果,上傳之前,壓縮圖片就是一個方面,你肯定不能拿原圖上傳,一張圖體積有 4M-5M,傳上去就得一會,所以白描可以做到將一張大圖壓得很小又能維持清晰度,既保證了傳輸速度又保證了識別質量。

波紋過濾

有的用戶反應在使用白描的過程中,他是直接拍攝電腦屏幕,識別結果超級不準確,後來發現就是屏幕上的一片片波紋干擾了文字,實際用眼睛看的時候好像沒看出什麼來,但是把圖的預覽區域使勁縮小,就能看出很明顯的一堆堆的波紋,我們也經過研究進行了適當的波紋優化,即時拍攝的屏幕有很多干擾條紋。也會把他們過濾掉,依然可以保證結果。

長圖自動裁剪

如果有人用過一些 OCR 介面,可能都知道太長的圖根本沒法識別,那就要把長圖裁剪成很多圖去識別,識別完了再把結果拼接起來,但是長圖裁剪這個事要讓用戶來手動裁嗎?那太累了!所以我們研究了一套自動切長圖的技術,可以自動檢測到文本位置和空行位置,自動的裁剪開,不會把文字切開,所以在白描里,你什麼都不用干,長圖直接扔過去識別就行。

去除雜亂背景

在紙很薄的情況下,背面的字會透出來,這樣就造成了識別的時候可能會把紙背面的字當內容去識別了,白描當然也提供了解決辦法,通過黑白色彩切換,可以很輕易的去除透出來的字或者其他雜亂背景。

自動分段

目前的 OCR 介面都是一行一行的返回結果,所以要想後期編輯方便,需要自己做上自動分段的功能,白描就針對這個需求做了優化,當然目前只是針對普通文章的分段,排版複雜的還是會有不準確。

自由選區

很多人有識別多樣化排版的文字需求,比如報紙那種排版,東一塊文字西一塊文字,他就想選需要的幾塊,那怎麼樣更方便呢,這就可以使用自由選區的功能,把需要識別的部分畫出來,白描就會按照畫的順序去識別啦。

自動尋找文件邊界

拍一個文件肯定不能做到完全按文件邊緣拍出來,如果就需要文件那部分,就要手動裁剪一下,那怎麼樣讓這個行為更方便一些呢?我們可以自動尋找文件邊緣,這樣直接一裁就可以啦。

先簡單說這麼幾個針對 OCR 識別方面的技術上的小優化,但其實白描能做的還有很多,比如自動檢測文檔邊界生成掃描件,切換掃描件的多種色彩,批量處理,表格識別導出 Excel,生成 PDF,翻譯等等。

關於 OCR 成本

除了針對 OCR 需要用的技術,關鍵還有成本啊!很多人可能比較關心白描調用百度 OCR 的成本有多少?其實,白描不只有調用 OCR 的成本啊,還有調用翻譯服務的成本。這裡先只說一下 OCR 成本,平均下來白描每天調用的 OCR 次數大概有 12 萬次,這一部分的成本真的是不小。

很多 App 整天盼著日活高一些啊,增長多一些啊,我還真的是盼著的是你們不要那麼活躍啊,哈哈哈(付了費後不那麼活躍就更好了??),此處純屬開玩笑啊,用我的 App 那是我的福氣!怎麼可以盼著人家不用!

所以,我們說一下會員價格,8 塊錢和 26 塊錢,還是一次買斷,與白描的成本比起來,真的一點都不貴。

關於自研核心技術

也許有人關心核心技術的問題,你說白描作為一款文字識別和文件掃描工具,OCR 這種核心技術全用的人家的?不怕人家哪一天突然停用了?對於這個問題,我覺得他們既然能收錢商用,也不會無緣無故突然停止。

儘管這個發生的概率不大或者不會太快,但是,我們依然擁有了自己的識別核心,當然準確度和速度與大廠的相比,還有一定的差距,但是,總會進步的嘛。

另外還有文件掃描的自動邊界檢測功能,我們也依然通過機器學習,擁有了屬於自己的更準確的檢測技術。

一個 App 說大不大,說小不小,但作為開發者,更希望用戶了解我們做出的努力,了解到我們為了一個 App 所要付出的時間成本和金錢成本,用肯定與建議的態度,去與開發者溝通(對純粹騙錢的那種不要用這種態度),而不是簡單的評論一句,不就是調用個介面的事嗎?

現在回想一下,這是一種很奇妙的感覺,通過一個 App,進入了一個領域,還能因為這個 App 所需要的技術,讓自身的技術視野更加開闊。

寫這麼多,其實主要是想感嘆一下,不知不覺,白描誕生 2 周年了!也希望未來有越來越多的人了解白描,使用白描,也願白描在各位的支持下越來越好!

特約福利

少數派與白描聯合帶來了特約福利活動,大家現在通過 少數派軟體商城 購買白描會員可以享受與 6.18 活動相同的優惠價格,其中普通會員 4 元,黃金會員 18 元,一次購買,永久有效。本活動限時 3 天。


推薦閱讀:
相关文章