文檔數據的存儲

  如何在數字化過程中將館藏檔案統一轉變為某些具有國際或國家標準的電子格式,是檔案數字化首先應該考慮的問題。

  《電子文件歸檔與管理規範》中推薦的通用文件格式為:文字型數據採用XML文檔和RTF、TXT格式;掃描圖像數據採用JPEG、TIFF格式。《紙質檔案數字化技術規範》中規定:採用黑白二值模式掃描的圖像文件,一般採用TIFF(G4)格式存儲;採用灰度模式和彩色模式掃描的文件,一般採用JPEG格式存儲;提供網路查詢的掃描圖像,也可存儲為CEB、PDF或其他格式。從前者到後者,可看出存儲格式是不斷發展且多元的。

1.文本型數據存儲格式比較

   以下對常見的幾種存儲格式進行比較,其優缺點都比較顯著。

2.文檔數據存儲格式發展趨勢

  電子文件的發展對電子文件的格式、元數據的封裝及其管理提出了很高的要求,但決定文檔格式是否具有長久可行的存儲優勢,主要取決於文檔是否具有開放性。就電子文檔而言,開放就意味著共享。從這個意義上說,XML文檔格式是最具優勢的,它具有自定義「電子文件類型定義」及封裝元數據等功能,又具有很強的開發性,因而是一種具有生命力的存儲格式。另外,隨著網上期刊的增多,PDF和CAJ等格式逐漸顯現出其優勢,在以後的數字化檔案存儲格式中也會佔有重要的一席之地。

  但是,某些格式如TXT、CEB等隨著技術的發展,可能會變得不那麼重要。TXT格式雖是國家規範中的推薦格式,但在當前的工作中已經較少使用;而CEB目前也只是在政府機關電子政務公文處理中使用比較廣泛,《基於XML的電子公文格式規範》的出臺將會進一步擴大其應用和影響。

圖像文件存儲格式

1.各類存儲格式比較

  掃描之後圖像文件採用何種格式存儲,是需要不斷隨技術發展和運用作調整的。目前看來,許多格式都可以作為圖像存儲之用,當然,究竟採用哪些格式,還要根據情況作選擇。以下特作一比對。

2.圖像文件存儲格式的發展

  上述格式雖然有著各自的應用優勢,但由於檔案數字化技術還不成熟,所以數字化後的格式一般還是採用國家規範中所推薦的TIFF、JPEG等常見格式。但隨著技術的發展,一些新的格式還是顯示了強大的發展後勁。特別是JPEG2000和DjVu兩種格式。

  JPEG2000作為JPEG的升級版,其壓縮率比JPEG高約30%左右,同時支持有損和無損壓縮。JPEG2000格式有一個極其重要的特徵在於它能實現漸進傳輸,即先傳輸圖像的輪廓,然後逐步傳輸數據,不斷提高圖像質量,讓圖像由朦朧到清晰顯示。此外,JPEG2000還支持所謂的「感興趣區域」特性,可以任意指定影像上感興趣區域的壓縮質量,還可以選擇指定的部分先解壓縮。

  JPEG2000和JPEG相比優勢明顯,且向下兼容,因此可取代傳統的JPEG格式。JPEG2000既可應用於傳統的JPEG市場,如掃描儀、數碼相機等,又可應用於新興領域,如網路傳輸、無線通訊等等。JPEG2000在當前的檔案數字化中並未得到應用,但隨著檔案信息網路傳輸的開展,這一格式也可以成為檔案數字化的標準格式。

相關文章