白領一族經常需要把紙質文件轉換成可編輯的word文檔,有時時間緊,實在來不及手動敲鍵盤,那麼OCR就是非常有必要的。OCR是Optical Character Recognition(光學字元識別)的縮寫。讀了本文,你就幾乎可以從零開始學會如何把紙質文檔轉換為Word文檔。

一、用手機或相機拍攝紙質文檔的照片

這一步沒什麼技術含量,但注意最好自然光下拍攝,不要有陰影,不要讓紙面反光,不要手抖,還要盡量保證文件平整。

二、用Photoshop處理照片

這一步需要一點Photoshop技術。如果照片拍攝得好其實可以略過這一步,但我的經驗是用Photoshop處理過之後識別的準確率更高,所以如果會用Photoshop最好處理一下。具體處理內容是:

裁剪去掉無關緊要的頁眉、頁腳、頁碼、插圖等。旋轉並對正照片,調節色階、亮度使文字和空白部分反差更大,把扭曲的照片調節平整。另外分欄的文件最好把兩欄裁剪開分別識別,以免格式混亂。

這裡我用《社會主義核心價值觀五講》做例子個大家展示一下如何操作。

首先用手機拍照如下。

用Photoshop簡單處理後如下。

三、下載軟體

首先介紹一下我用的軟體,ABBYY FineReader。這款軟體很強大,可以讀取多種格式的圖片和pdf文檔,可以識別多種語言包括繁體中文、簡體中文和英文,而且橫放或者倒放的圖片也可以自動識別好。下載請訪問愛軟體 愛漢化 愛分享 博客型軟體首頁,免費、免安裝,百度雲下載很快。為了表示對網站作者的尊敬我就不直接給百度雲鏈接了,請各位訪問支持他一下。這個網站上有很多常用辦公軟體,包括全套的Adobe Creative Cloud和Microsoft Office。

四、打開軟體並簡單設置

打開軟體後的歡迎頁面如圖。

紅框1是選擇輸出格式的,既然我們要把圖片轉換成文字所以要選擇Microsoft Word,然後紅框2是紅框1的子選項,Scan to Microsoft Word是從掃描儀轉換為Word,Image or PDF File to Microsoft Word是把圖片或者PDF轉換為Word,Photo to Microsoft Word是把圖片轉換為Word。所以我們選擇第二個和第三個都可以。

紅框3是選擇語言和顏色模式的,語言選擇Chinese Simplified and English(簡體中文和英文),顏色模式選擇黑白就可以。拍攝照片時顏色很容易失真,所以即使你想導出彩色文檔也最好在這裡選擇黑白模式然後手動調節顏色。

紅框4是輸出格式,Plain text就是純文本TXT格式,即除去一切字體、字型大小、顏色、行間距等格式。因為識別出的格式往往比較混亂,所以不如輸出純文本格式然後手動調節格式。

五、文字識別

在紅框2里選擇好單擊之後就可以在彈出的窗口裡選擇需要識別的圖片了。可以一下選擇多張,但要注意順序。選好圖片之後軟體就會開始自動識別。

最上面的一欄圖標是選項設置,一般用不到,注意的是紅框中最好選擇send to Microsoft Word,就是把識別後的文字輸出到Microsoft Word里。注意是「輸出」而不是「保存」,需要自己手動保存一下才能生成Word文檔。

繼續用《社會主義核心價值觀五講》做例子,識別後輸出到Word的文件如圖。可以看到文字和標點相當準確很少有錯誤,分段和換行也能區別開來。最大的缺點是原文中所有的換行在輸出文件中都莫名其妙多了一個空格,如紅框所示。

六、後期處理

這時我們只需要改改錯字,調整頁面設置、字體、字型大小、字元顏色、行間距等等就大功告成了。對於莫名其妙多出來的空格,在Word中用「替換」功能刪除所有空格即可。

謝謝觀賞!如果你有更好的文字識別方法也請在下面留言告知我。


推薦閱讀:
相关文章