文/王 梅
新修訂的《中華人民共和國檔案法》第五章“檔案信息化建設(shè)”第38條提出,“國家鼓勵(lì)和支持檔案館和機(jī)關(guān)、團(tuán)體、企業(yè)事業(yè)單位以及其他組織推進(jìn)傳統(tǒng)載體檔案數(shù)字化?!薄都堎|(zhì)檔案數(shù)字化規(guī)范》明確“數(shù)字化”是指“利用計(jì)算機(jī)技術(shù)將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的處理過程”。換言之,檔案數(shù)字化就是指利用掃描儀等設(shè)備對(duì)檔案進(jìn)行數(shù)字化加工,使其轉(zhuǎn)化為存儲(chǔ)在磁帶、磁盤、光盤等載體上的數(shù)字圖像,并按照檔案內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關(guān)聯(lián)關(guān)系的處理過程。其中,“掃描”是整個(gè)檔案數(shù)字化過程的關(guān)鍵環(huán)節(jié),掃描的質(zhì)量直接影響著檔案數(shù)字化成果的質(zhì)量。其中,色彩模式、存儲(chǔ)格式、分辨率、亮度及優(yōu)化設(shè)置等相關(guān)環(huán)節(jié)的參數(shù)設(shè)置,關(guān)乎檔案數(shù)字化成果的質(zhì)量。因此,熟悉并掌握檔案數(shù)字化掃描的相關(guān)參數(shù)原理內(nèi)容、設(shè)置方法及主要內(nèi)容,對(duì)做好檔案數(shù)字化工作至關(guān)重要。
數(shù)字世界里表示顏色的一種算法,即色彩模式。它是一種表示掃描儀分辨色彩或灰度細(xì)膩程度的指標(biāo)。色彩模式又叫色彩位數(shù)、色彩分辨率,理論而言,色彩分辨率越高,顏色就越逼真,圖形文件體積越大。掃描儀的色彩模式通常包括彩色、灰度、黑白三種。從掃描儀的發(fā)展歷程來看,早期主要是24位色彩,后來逐漸發(fā)展成為36位色彩、48位色彩,但這三種色彩模式受人眼及顯示器因素制約,差異幾乎不可見。目前,檔案數(shù)字化掃描中,色彩模式主要有三種:黑白二值、灰度、24位色彩。
掃描儀黑白二值模式是以黑白二色(即1個(gè)二進(jìn)制位)表示圖像的色彩模式。黑白照片或紙質(zhì)檔案可直接采用黑白二值色彩模式進(jìn)行掃描。主要優(yōu)點(diǎn):顏色少,掃描后生成的電子文件小,節(jié)約存儲(chǔ)空間,提升運(yùn)行效率。適用范圍:黑白照片或黑白文稿檔案,以及非黑即白頁面、無插圖票據(jù)等,常選用黑白二值色彩模式。若要進(jìn)行OCR(文字識(shí)別),選用黑白二值色彩模式掃描的圖像,后期的識(shí)別速度、識(shí)別準(zhǔn)確率都高于灰度、24位色彩模式。
掃描儀灰度模式是以灰色元素(即8個(gè)二進(jìn)制)表示圖像的色彩模式,使圖像呈現(xiàn)出明暗變化?;叶饶J綊呙韬蟮臋n案如“黑白照片”,但由于灰度模式色彩存在較大失真,有色文件或照片多選用24位真彩模式?;叶壬誓J?,主要優(yōu)點(diǎn):圖像呈現(xiàn)出較為顯著的明暗變化,掃描后的數(shù)字文件體積較小,所占存儲(chǔ)空間較小。適用范圍:老舊黑白照片或微微泛黃的檔案資料,為節(jié)約存儲(chǔ)空間,常選用灰度模式。針對(duì)老舊黑白照片或泛黃檔案應(yīng)選用灰度色彩模式,而不可選用黑白二值色彩模式,否則,掃描后,其圖像背景會(huì)出現(xiàn)黑點(diǎn),嚴(yán)重的甚至?xí)霈F(xiàn)黑塊。
掃描儀24位色彩模式是以24個(gè)二進(jìn)制位來表示像素顏色的模式,最多可表示2種顏色。與36位色彩和48位色彩模式的差別難以通過人眼或顯示器分辨,一般用于有色文件選擇24位色彩模式即可,經(jīng)掃描后可直接生成豐富色彩圖像,保持彩色照片或有色檔案的原真性。24位色彩、36位色彩或48位色彩模式的不足在于其掃描后的文教較大,掃描及運(yùn)行速度較慢。適用范圍:紙質(zhì)紅頭文件;彩色插圖或彩色照片文件;嚴(yán)重泛黃的紙質(zhì)檔案。主要優(yōu)點(diǎn):保留了紅頭文件、彩色文件的原真性。
表1:不同色彩模式特點(diǎn)及適用范圍
綜上,檔案數(shù)字化掃描時(shí)選擇色彩模式應(yīng)考慮的因素包括:1)原件情況。對(duì)于影像清晰、檔案原件色彩簡(jiǎn)單、色彩對(duì)比強(qiáng)烈的原件,采取3種色彩模式掃描的圖像清晰程度差異不明顯。影像不清晰,以及色彩對(duì)比不強(qiáng)烈的原件,采取彩色模式掃描的圖像,在展現(xiàn)檔案原件細(xì)節(jié)、清晰程度等方面要明顯優(yōu)于灰度模式或黑白模式掃描的圖像。2)硬件條件。傳統(tǒng)條件下,由于硬件所限,通常會(huì)綜合考慮圖像質(zhì)量、訪問速度、存儲(chǔ)成本等因素選擇色彩模式。隨著技術(shù)的進(jìn)步,硬件考量因素將越來越被弱化。3)后期應(yīng)用。彩色模式可以轉(zhuǎn)換為灰度模式或黑白模式,為盡可能多地采集信息,彩色模式是最理想選擇。但是,對(duì)需要進(jìn)行COM輸出的檔案,色彩模式對(duì)輸出效果的影響與縮微膠片輸出設(shè)備可接受的圖像色彩模式有很大關(guān)系。
由Aldus和Microsoft公司開發(fā)的一種圖像文件格式,是一種可壓縮保存的圖像存儲(chǔ)格式。TIFF格式存盤時(shí)一般會(huì)選擇相應(yīng)項(xiàng)目,首先確定是PC機(jī)或是Mac機(jī),是否需要LZW壓縮。由于TIFF格式不支持圖層,但支持A1pha通道,選擇LZW壓縮、選擇TIFF格式存盤時(shí),能夠減少50%的存儲(chǔ)容量,且不影響圖像質(zhì)量。TIFF格式存儲(chǔ)掃描后的圖像文件,一般應(yīng)用于精度要求較高場(chǎng)合,是一種保真壓縮格式,但占用空間較大。
JPEG格式是一種常見的壓縮圖像文件格式,是由聯(lián)合照片專家組開發(fā),存儲(chǔ)于要求圖像精度不高、存儲(chǔ)量大的場(chǎng)合,大多會(huì)選擇JPEG格式。JPEG格式是一種有損壓縮文件存儲(chǔ)格式,在存盤時(shí)通過選擇具體的壓縮比(圖像質(zhì)量等級(jí)),確定相應(yīng)的存儲(chǔ)格式。要求圖像存儲(chǔ)質(zhì)量高清應(yīng)選擇High8以上的高質(zhì)量圖像壓縮方式,高清圖像模式壓縮條件下,其圖像容量較大;反之,圖像存儲(chǔ)容量變小,其質(zhì)量相對(duì)就會(huì)降低。JPEG格式存儲(chǔ)屬于有損壓縮,易造成圖像數(shù)據(jù)損傷,但存儲(chǔ)容量大,適宜網(wǎng)絡(luò)傳輸。
作為JPEG格式的升級(jí)版,JPEG2000版壓縮率升高了30%左右。JPEG2000版支持無損壓縮和有損壓縮兩種,其最大特征在于實(shí)現(xiàn)漸進(jìn)傳輸,即,首先傳輸圖像輪廓,再逐步傳輸圖像數(shù)據(jù),提升圖像品質(zhì),使數(shù)字圖像由朦朧逐步清晰。且,JPEG2000支持“感興趣區(qū)域”特征,就影像上感興趣的區(qū)域進(jìn)行壓縮,也可就指定區(qū)域先解壓縮。與傳統(tǒng)的JPEG相比,JPEG2000升級(jí)版具有顯著優(yōu)勢(shì),且向下兼容,取代傳統(tǒng)JPEG格式,符合檔案數(shù)字化信息網(wǎng)絡(luò)傳輸需要。
1996年,美國電報(bào)電話公司實(shí)驗(yàn)室開發(fā)一項(xiàng)新的圖片壓縮技術(shù)——DjVu,目前,其已成為標(biāo)準(zhǔn)圖像文檔存儲(chǔ)格式之一,逐漸成為網(wǎng)絡(luò)傳輸掃描文件、數(shù)碼照片、圖像文件等領(lǐng)域的主流技術(shù)之一。該技術(shù)科將所有傳統(tǒng)印刷資料實(shí)現(xiàn)網(wǎng)上高速傳播,壓縮比可達(dá)到1000∶1,300dpi分辨率的彩色頁面可從25MB壓縮至30-80KB,且圖像質(zhì)量依然很高。能夠分別儲(chǔ)存于不同層,再每一層進(jìn)行最優(yōu)化壓縮,分別圖片中文字及圖片。DjVu下載后的圖像可直接存儲(chǔ)于計(jì)算機(jī)內(nèi)存,在瀏覽器中快速移動(dòng)、縮放,該技術(shù)在靜態(tài)存儲(chǔ)及網(wǎng)絡(luò)傳輸方面具有很大優(yōu)勢(shì)。雖然該技術(shù)并未被納入國家標(biāo)準(zhǔn),但杭州市檔案館等國內(nèi)部分檔案館實(shí)現(xiàn)該技術(shù)的應(yīng)用,滿足檔案數(shù)字化掃描存儲(chǔ),具有較強(qiáng)的應(yīng)用和推廣價(jià)值。
表2:不同存儲(chǔ)模式特點(diǎn)及適用范圍
綜上,數(shù)字檔案掃描選擇相應(yīng)的存儲(chǔ)格式,需要考慮:保證數(shù)字檔案原真性,在此基礎(chǔ)上應(yīng)選擇占用存儲(chǔ)空間較小的存儲(chǔ)格式;兼容性較高的存儲(chǔ)格式;以及具有強(qiáng)大技術(shù)力量支持或者已列入標(biāo)準(zhǔn)化存儲(chǔ)格式。
衡量數(shù)字檔案掃描儀對(duì)圖像細(xì)節(jié)表現(xiàn)能力的參數(shù)通常用分辨率,即,每英寸掃描圖像中含有像素點(diǎn)的個(gè)數(shù)表示,記作dpi(dot per inch)。分辨率是數(shù)字檔案中最重要參數(shù),分辨率越高表明每英寸掃描圖像中的像素點(diǎn)的個(gè)數(shù)越多,圖像越清晰,但并不意味著分辨率越高,其效果就越好。分辨率對(duì)文件大小、掃描速度、圖像質(zhì)量和后期操作等都有不同程度的影響。
一是文件大小。檔案數(shù)字化掃描,分辨率設(shè)置越高,所產(chǎn)生的圖像文件就越大。通常,一張A4文件用黑白二值格式掃描成TIFF 格式圖像,其分辨率設(shè)定為150dpi、200dpi、300dpi時(shí),其文件大小分別為18K、29K、46K左右,而以24位真彩模式掃描成JEPG格式圖像,將其分辨率設(shè)定為150dpi、200dpi、300dpi時(shí),其文件大小分別為290K、452K和871K,可見,分辨率越高,圖像文件就越大。二是掃描速度。檔案數(shù)字化掃描,分辨率設(shè)置越高,掃描的速度就會(huì)越低。通常,一張A4文件用黑白二值格式掃描,分辨率對(duì)其掃描速度的影響不明顯,但,選用24位真彩模式掃描,分辨率每提高50dpi,其掃描速度就會(huì)明顯受到影響。分辨率提高一倍,掃描所需時(shí)間就會(huì)增加一倍。如一名掃描員一天掃描1500張,因分辨率設(shè)置而使每一張掃描的時(shí)間多花2秒,一天就會(huì)多花300秒,即,50分鐘。三是圖像質(zhì)量。分辨率的增加對(duì)圖像質(zhì)量的影響呈現(xiàn)出遞減效應(yīng),即,邊際效用遞減。一開始,分辨率每增加一定量,其圖像質(zhì)量就會(huì)顯著提高,但隨著分辨率的不斷提高,對(duì)圖像質(zhì)量的影響幅度就會(huì)慢慢降低,當(dāng)?shù)竭_(dá)一定臨界點(diǎn)后,分辨率幾乎不影響到圖片質(zhì)量。因此,一味追求分辨率在無法提升圖片質(zhì)量的情況下,還會(huì)影響檔案數(shù)字化掃描效率,會(huì)起到反向效果。
表3:不同分辨率文件大小及掃描速度
四是后期操作。檔案數(shù)字化掃描分辨率設(shè)置過高,會(huì)影響其后期的掛接、處理速度,以及文件閱讀的速度,傳輸緩慢。
綜上,檔案數(shù)字化掃描分辨率設(shè)置沒有“最大”“最小”,一般分辨率參數(shù)設(shè)置≥100dpi,當(dāng)文檔字體偏小、清晰度較差時(shí),可適當(dāng)提升分辨率。
亮度是指檔案數(shù)字化掃描過程中圖像的明暗程度參數(shù)。適當(dāng)調(diào)整圖像明暗程度,及其對(duì)比度值,會(huì)提升圖片識(shí)別率。通常,設(shè)定檔案數(shù)字化掃描亮度、對(duì)比度值,應(yīng)保證檔案掃描后圖像中文字筆畫均勻、較細(xì),沒有明顯斷點(diǎn)。因?yàn)?,亮度太亮,掃描后圖像中的文字筆畫就容易出現(xiàn)斷裂或殘缺不全;而亮度太暗,圖像中文字筆畫又互相粘連,甚至漆黑一團(tuán)。因此,針對(duì)底色較淺或者紙張光面的檔案資料進(jìn)行數(shù)字化掃描,應(yīng)適當(dāng)調(diào)低其亮度;反之,對(duì)底色較深或者紙張較暗的檔案資料進(jìn)行掃描,以及筆畫較粗、字體較小的黑體、楷體字在掃描時(shí),應(yīng)適當(dāng)?shù)卣{(diào)高其亮度。檔案數(shù)字化彩色模式掃描,也會(huì)存在同樣掃描儀掃描的成品結(jié)果不相同的情況,究其原因,主要是計(jì)算機(jī)顯示器亮度及對(duì)比度差異;掃描儀色彩校正軟件出現(xiàn)問題,按照軟件推薦的參數(shù)調(diào)整較色軟件“亮度”“對(duì)比度”。還要注意掃描軟件中Gamma參數(shù)設(shè)置,該參數(shù)設(shè)置越大,亮度越高,紙質(zhì)顏色虛假失真。通常情況下,Gamma參數(shù)設(shè)置為1.4,報(bào)紙、雜志等印刷品Gamma參數(shù)設(shè)置為1.8左右,檔案數(shù)字化掃描文件放置網(wǎng)頁,則Gamma參數(shù)設(shè)置為2.2左右。
綜上,隨著數(shù)字時(shí)代的到來,數(shù)字化是檔案發(fā)展的趨勢(shì)和方向,也是提高檔案管理效率,發(fā)揮檔案價(jià)值和功能的重要手段。其中,色彩模式、存儲(chǔ)格式、分辨率和亮度等參數(shù)的科學(xué)設(shè)定,是提升數(shù)字化掃描關(guān)鍵環(huán)節(jié),也是增強(qiáng)檔案數(shù)字化質(zhì)量,適應(yīng)數(shù)字化時(shí)代發(fā)展的現(xiàn)實(shí)需要。