■ 謝君
大數(shù)據(jù)時代下檔案數(shù)字化掃描參數(shù)優(yōu)化設(shè)置探討
■ 謝君
本文從分析檔案數(shù)字化掃描參數(shù)即色彩模式、存儲格式、分辨率、亮度入手,通過概念介紹和實驗數(shù)據(jù),探討這四個參數(shù)設(shè)置對檔案掃描效果和效率的影響,并針對不同類型文件的掃描參數(shù)進行優(yōu)化設(shè)置,以求達到高質(zhì)量的掃描件和高效率的工作,推動檔案數(shù)字化工作的開展。
檔案 數(shù)字化 掃描 參數(shù) 優(yōu)化設(shè)置
大數(shù)據(jù)時代下,檔案數(shù)字化是一項工作量巨大的艱難任務(wù),同時也是一次前所未有的突破。檔案數(shù)字化對于確保檔案實體安全、實現(xiàn)檔案自動化管理、高效提供利用等方面具有顯著意義。檔案數(shù)字化主要是通過掃描真實完整地還原檔案實體,在實際操作中,會出現(xiàn)偏色、色彩失真、清晰度不夠、文件過大等現(xiàn)象,大部分問題出在參數(shù)設(shè)置以及使用技巧上,即使是同款同型號的掃描儀,不同人使用,掃描效果也會大相徑庭,所以掃描參數(shù)設(shè)置很關(guān)鍵。下面是筆者根據(jù)工作實際,參考相關(guān)文獻提出的一些建議。
所謂色彩模式(色彩位數(shù)、色彩深度)是表示掃描儀所能辨析的色彩范圍,一般有黑白二值、灰度、24位彩色、30位彩色、36位彩色、48位彩色等。通常色彩位數(shù)越多,就越能真實反映原始圖像的色彩,所掃出圖像的效果也越真實,當然也造成圖形文件體積的加大。對于某些應(yīng)用環(huán)境,掃描儀色彩位數(shù)指標,甚至比分辨率更重要。色彩位數(shù)的具體指標是用“位”(即2的多少次方)來描述,24位彩色表明掃描儀可分辨1670萬種顏色,30位真彩是6.87億種顏色,而36位真彩色是1670億種顏色。盡管大多數(shù)顯卡只支持24位色彩,但由于CCD(圖像傳感器)與人眼感光曲線的不同,為了保證色彩還原的準確,就需要進行修正,這就要求掃描儀的色彩位數(shù)至少要達到36位才能獲得比較好的色彩還原效果。因此現(xiàn)在盡量應(yīng)該選購36位色彩位數(shù)的掃描儀。真正的36位掃描儀就是指所使用的CCD感光器件是36位的,同時數(shù)據(jù)處理方式也是36位的產(chǎn)品。而目前市場上所謂“36位掃描儀”種類繁多,魚目混珠。除了真36位外,還有假36位、準36位、CIS36位等類型,選購時一定要注意。[1]
1.黑白模式
一個像素的顏色用1位來表達,也就是黑和白,生成的文件體積小,可節(jié)約存儲空間,提高運行速度。特別是進行OCR識別時,其識別速度和正確率比其他模式都高,從而避免過多的顏色變成干擾信息。
2.灰度模式
一個像素的顏色用8位來表達,在黑白二色之間加入灰色元素,使圖像呈現(xiàn)出明暗變化,如同黑白照片,其形成的文件體積也較小。
3.彩色模式
生成的圖像色彩豐富,圖像的效果真實,但是文件體積較大,掃描速度慢。
在實際操作中須有針對性地選擇,如表1所示,根據(jù)不同文件類型,以最小的體積容納最高質(zhì)量的圖像,如果錯用模式會造成嚴重的偏色和空間的浪費。
表1 色彩模式
存儲格式是為了存儲信息而使用的對信息的特殊編碼方式,用于識別內(nèi)部儲存的資料,決定了存儲信息的類型、與應(yīng)用軟件的兼容,以及與其他文件的數(shù)據(jù)交換等。目前大約有150多種格式,不僅具有各種不同的擴展名,而且有不同的特性,如是否壓縮、是否支持圖層、能否盡可能多地保留圖像細節(jié)等。由于掃描軟件不同,支持的存儲格式也會有所不同。因此在實際掃描并保存時要針對用途、圖像特征、圖像處理軟件、計算機存儲空間等因素做出相應(yīng)的選擇。但由于檔案數(shù)字化技術(shù)還不成熟,所以一般還是采用國家規(guī)范中所推薦的TIFF、JPEG等常見格式。提供網(wǎng)絡(luò)查詢的掃描圖像,也可存儲為CEB、PDF或其他格式。隨著技術(shù)的發(fā)展,一些新的格式顯示了強大的發(fā)展后勁,如JPEG2000和DjVu。[3]其實存儲格式是不斷發(fā)展且多元的,如何在數(shù)字化過程中將檔案統(tǒng)一轉(zhuǎn)變?yōu)槟承┚哂袊H或國家標準的電子格式,是檔案數(shù)字化首先應(yīng)該考慮的問題。
表2 存儲格式
1.TIFF格式
擴展名是.tif,是可壓縮保存的格式。是Aldus公司在早期蘋果機上開發(fā)的,但現(xiàn)在已成為跨平臺應(yīng)用最為廣泛的圖像文件格式。除了雙色調(diào)圖像,其他位圖、灰度圖、RGB彩色圖像、CMYK彩色圖像、CIElab彩色圖像的存儲都不成問題。TIFF文件不支持圖層,但支持A1pha通道,在Photoshop中,TIFF格式能夠支持24個通道,可以支持CMYK彩色圖像的印刷分色,它是除Photoshop自身格式(即.psd和.pdd)外惟一能夠存儲多個通道的文件格式。在選擇TIFF格式存盤時一般會有選擇項目,首先選擇是PC還是Mac機,另外就是需不需要LZW壓縮。LZW是一種沒有損失的壓縮方式,選擇LZW壓縮進行TIFF格式存盤時,可以減少原有文件約50%的容量,并保證圖像質(zhì)量不下降。精度要求較高的圖像文件,掃描后一般都選擇TIFF格式直接進行存儲。
2.JPEG格式
擴展名是.jpg,是最為常見的一種壓縮圖像文件格式。對于圖像精度要求不高,需要存儲大量圖像文件的場合,JPEG是最佳選擇。但切記JPEG是一種有損壓縮文件格式,在存盤時會有一個壓縮比(圖像質(zhì)量等級)的選擇,若要求圖像質(zhì)量高請選擇高質(zhì)量 (High8以上)圖像壓縮方式,圖像容量會相對較大:反之文件容量變小了,但圖像質(zhì)量也會大大降低。
3.JPEG2000格式
作為JPEG的升級版,其壓縮率比JPEG高約 30%左右,同時支持有損和無損壓縮。JPEG2000格式有一個極其重要的特征在于它能實現(xiàn)漸進傳輸,即先傳輸圖像的輪廓,然后逐步傳輸數(shù)據(jù),不斷提高圖像質(zhì)量,讓圖像由朦朧到清晰顯示。JPEG2000和JPEG相比優(yōu)勢明顯,且向下兼容,既可應(yīng)用于傳統(tǒng)的JPEG市場,如掃描儀、數(shù)碼相機等,又可應(yīng)用于新興領(lǐng)域,如網(wǎng)絡(luò)傳輸、無線通訊等等。但在當前的檔案數(shù)字化中并未得到應(yīng)用,隨著檔案信息網(wǎng)絡(luò)傳輸?shù)拈_展,這一格式也可以成為檔案數(shù)字化的標準格式。
4.DjVu格式
由美國電報電話公司實驗室 (AT&T Labs)于1996年開發(fā)成功的一項新的圖片壓縮技術(shù),通過這項技術(shù),幾乎所有的傳統(tǒng)印刷資料都可在網(wǎng)上以高速傳播。DjVu具有1000∶1的高壓縮比,通過DjVu壓縮格式,以300dpi的分辨率掃描的彩色頁面可以從25MB縮小到30至80KB,而且圖像質(zhì)量十分優(yōu)秀。它能分辨出文字及圖片的部分,并且分別儲存在不同層,再分別對每一層圖像以最佳化的方式進行壓縮,因此能產(chǎn)生最好的圖像品質(zhì)及最小的檔案。這種技術(shù)將能得到清晰的文件圖像,而又能保持原始文件的圖像品質(zhì)。同時,由于采用分層顯示,而不是等到整幅圖片都被解碼之后才顯示,也使得圖片顯示的速度大大提高,用戶在兩三秒之內(nèi)就能夠迅速看到文字,其他的圖像信息也會在幾秒鐘之內(nèi)陸續(xù)顯示出來。這種網(wǎng)上高質(zhì)量圖像發(fā)布的體驗在傳統(tǒng)壓縮格式上是無法實現(xiàn)的。DjVu下載后的圖像直接儲存在計算機的內(nèi)存中,并且可以在瀏覽器上快速地對文件進行實時的移動、縮放。換句話說,DiVu能使人們只花很少的時間來掃描、儲存及下載大量文件。目前,DiVu技術(shù)正在杭州市檔案館進行試點研究,尚未引入國家標準。但DjVu技術(shù)不論是在靜態(tài)存儲還是網(wǎng)上傳輸方面都具有相當?shù)膬?yōu)勢,且這一技術(shù)在圖書館界也早已得以采用,事實證明,DjVu技術(shù)同樣可以用于檔案數(shù)字化的工作中。
分辨率用dpi來表示,通過掃描元件將掃描對象每英寸可以被表示成的點數(shù),是非常重要的參數(shù),直接決定了掃描清晰度。主要和形成的電子文件大小和掃描速度有著遞增的關(guān)系,dpi在一定值范圍內(nèi)越大,固然越清晰,但形成的電子文件就越大,掃描速度越慢,后期處理和掛接的速度也會變慢,占用的存儲空間大。所以并非dpi越大越好,以高分辨率進行掃描只能浪費時間和磁盤空間,掃描更多的點并不能改進圖像的質(zhì)量,高分辨率掃描對掃描膠片或放大圖像也許是需要的。但對于檔案數(shù)字化來說,由于館藏量大、數(shù)據(jù)庫存儲系統(tǒng)等原因,應(yīng)該以掃描后的圖像清晰、完整、不影響檔案利用效果,也就是屏幕預(yù)覽和標準打印為準。故掃描過程中應(yīng)按照不同類型檔案特征,選定適宜的分辨率。根據(jù)紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范行業(yè)標準,建議選擇大于或等于100dpi;特殊情況下,如文字偏小、密集、清晰度較差等,可適當提高分辨率;需要進行OCR漢字識別的檔案,建議選擇大于或等于200dpi。根據(jù)實際經(jīng)驗,1、2、3號字的文件推薦使用200dpi,4、小4、5號字的文件推薦使用300dpi,小5、6號字的文件推薦使用400dpi,7、8號字的文件推薦使用600dpi。
由于館藏紙質(zhì)檔案除基建圖紙等少數(shù)特別載體外,多數(shù)是以A4和A3為主,所以表3以掃描A4黑白文件和A4彩色文件為例,實驗顯示,彩色模式比黑白二值模式,分辨率對文件大小的影響更明顯,特別是設(shè)置在200dpi以上,體積大小和掃描速度都在倍增,但清晰度卻沒有遞增,可見,大部分檔案掃描將分辨率設(shè)置在200-300dpi是較適宜的。
表3 分辨率與文件大小和掃描速度
亮度是表現(xiàn)掃描圖像明暗程度的參數(shù),適當?shù)卣{(diào)整好亮度和對比度值,對識別率的高低影響很大,在進行掃描亮度和對比度的設(shè)定時,以掃描后的圖像中文字的筆畫較細、均勻,且沒有明顯斷點為準。如果掃描后的文字圖像存在黑點、黑斑或文字線條很粗很黑,分不清筆畫,說明亮度值太小,應(yīng)該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大,應(yīng)減小亮度后再重新掃描。如果要掃描質(zhì)量比較差的文稿,比如報紙,掃描出的圖像可能會出現(xiàn)大量的黑點,而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象,為獲得較好的識別結(jié)果,必須仔細進行亮度和對比度值的調(diào)整,反復(fù)掃描多次才能獲得比較理想的效果。[4]
尤其在使用彩色模式進行掃描照片的時候,會發(fā)現(xiàn),同款掃描儀掃描成品相比較,顏色的鮮艷程度也不很相同,大致能夠造成這樣視覺差異的元素有三:一、電腦顯示器的亮度和對比度上,目前顯示器技術(shù)的發(fā)展一日千里,所以千萬不要一看到掃描成品色彩不一就急著調(diào)整掃描儀參數(shù)。顯示器的精準程度直接關(guān)系后期預(yù)覽圖,以及參數(shù)微調(diào)。二、掃描儀色彩校正軟件出現(xiàn)問題,按照軟件推薦的參數(shù)調(diào)整校色軟件的“亮度”和“對比度”兩項參數(shù),然后根據(jù)預(yù)覽圖進行微調(diào)。最后一點就是掃描軟件中的Gamma參數(shù),這個參數(shù)代表從暗色到亮色調(diào)的視覺感受程度,在理論上講,把Gamma值調(diào)的越高,感覺上,顏色會越豐富越鮮艷,隨著值的升高,直到顏色虛假失真。掃描儀自帶的掃描軟件會對Gamma值進行校對調(diào)整,但是并不完全智能,需要手動調(diào)節(jié),我們往往就是在這個參數(shù)上沒有設(shè)置好才造成了顏色暗淡,通常來講,普通掃描照片下Gamma值為1.4,而雜志印刷品稍高的1.8,放置網(wǎng)頁上的掃描文件則需要更高的2.2。
綜合以上參數(shù)特性和實驗分析,得出不同類型文件需要分別設(shè)置不同分辨率和色彩模式,以求達到高質(zhì)量的掃描件和高效率的工作。表4就是以A4文件為例,對3種不同類型文件的掃描參數(shù)進行優(yōu)化設(shè)置,給出合理建議,并列出所形成的電子文件體積大小和掃描速度對照圖。
表4 掃描參數(shù)優(yōu)化設(shè)置
總之,優(yōu)化參數(shù)設(shè)置是掃描工作的關(guān)鍵,直接影響到檔案數(shù)字化的效果和效率,需要權(quán)衡兩者之間的關(guān)系,在不影響效果的前提下提高效率,推動檔案數(shù)字化開展。
[1]如何確定掃描儀的色彩位數(shù).http://jingyan.baidu. com/article/2009576170c805cb0721b433.html,2015.1.27.
[2]檔案行業(yè)標準:紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范(DA/T31-2005):6.3.1-3.
[3]專家:檔案數(shù)字化掃描與存儲格式比較. http://storage.chinabyte.com/399/11512399_3. shtml,2015.1.27.
[4]掃描參數(shù)設(shè)置.http://wenku.baidu.com/ link?url=a0GLMxekEDCvYAYiXeGAmPZE_ri6J9 tE4vFwbsvjC8i5oclW0CKTrii7wzbcJjlkRlWkS0Sa 2_5-29_SSLpOdZoyWBDu62v1qjQBJ-cie1i,2015.1.27.
作者單位:華南農(nóng)業(yè)大學檔案館