摘 要:“掃描”是整個檔案數(shù)字化過程的關(guān)鍵環(huán)節(jié),掃描的質(zhì)量直接影響著檔案數(shù)字化成果的質(zhì)量。本文從色彩模式、存儲格式、分辨率、亮度等方面,深入討論了保真、整理原則下的檔案數(shù)字化掃描的參數(shù)設(shè)置的具體內(nèi)容,對提升新時代檔案數(shù)字化掃描質(zhì)量具有積極的現(xiàn)實指導(dǎo)意義。
關(guān)鍵詞:檔案數(shù)字化;掃描;參數(shù)設(shè)置
概述
新修訂的 《中華人民共和國檔案法》 第五章“檔案信息化建設(shè)”第38條提出,“國家鼓勵和支持檔案館和機關(guān)、團體、企業(yè)事業(yè)單位以及其他組織推進傳統(tǒng)載體檔案數(shù)字化?!?《紙質(zhì)檔案數(shù)字化規(guī)范》 明確“數(shù)字化”是指“利用計算機技術(shù)將模擬信號轉(zhuǎn)換為數(shù)字信號的處理過程”。換言之,檔案數(shù)字化就是指利用掃描儀等設(shè)備對檔案進行數(shù)字化加工,使其轉(zhuǎn)化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字圖像,并按照檔案內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關(guān)聯(lián)關(guān)系的處理過程。其中,“掃描”是整個檔案數(shù)字化過程的關(guān)鍵環(huán)節(jié),掃描的質(zhì)量直接影響著檔案數(shù)字化成果的質(zhì)量。其中,色彩模式、存儲格式、分辨率、亮度及優(yōu)化設(shè)置等相關(guān)環(huán)節(jié)的參數(shù)設(shè)置,關(guān)乎檔案數(shù)字化成果的質(zhì)量。因此,熟悉并掌握檔案數(shù)字化掃描的相關(guān)參數(shù)原理內(nèi)容、設(shè)置方法及主要內(nèi)容,對做好檔案數(shù)字化工作至關(guān)重要[1-3]。
1 ??色彩模式[4-5]
數(shù)字世界里表示顏色的一種算法,即色彩模式。它是一種表示掃描儀分辨色彩或灰度細(xì)膩程度的指標(biāo)。色彩模式又叫色彩位數(shù)、色彩分辨率,理論而言,色彩分辨率越高,顏色就越逼真,圖形文件體積越大。掃描儀的色彩模式通常包括彩色、灰度、黑白三種。從掃描儀的發(fā)展歷程來看,早期主要是24位色彩,后來逐漸發(fā)展成為36位色彩、48位色彩,但這三種色彩模式受人眼及顯示器因素制約,差異幾乎不可見。目前,檔案數(shù)字化掃描中,色彩模式主要有三種:黑白二值、灰度、24位色彩。
1.1黑白二值模式
掃描儀黑白二值模式是以黑白二色(即1個二進制位)表示圖像的色彩模式。黑白照片或紙質(zhì)檔案可直接采用黑白二值色彩模式進行掃描。主要優(yōu)點:顏色少,掃描后生成的電子文件小,節(jié)約存儲空間,提升運行效率。適用范圍:黑白照片或黑白文稿檔案,以及非黑即白頁面、無插圖票據(jù)等,常選用黑白二值色彩模式。若要進行OCR(文字識別),選用黑白二值色彩模式掃描的圖像,后期的識別速度、識別準(zhǔn)確率都高于灰度、24位色彩模式。
1.2灰度模式
掃描儀灰度模式是以灰色元素(即8個二進制)表示圖像的色彩模式,使圖像呈現(xiàn)出明暗變化。灰度模式掃描后的檔案如“黑白照片”,但由于灰度模式色彩存在較大失真,有色文件或照片多選用24位真彩模式?;叶壬誓J?,主要優(yōu)點:圖像呈現(xiàn)出較為顯著的明暗變化,掃描后的數(shù)字文件體積較小,所占存儲空間較小。適用范圍:老舊黑白照片或微微泛黃的檔案資料,為節(jié)約存儲空間,常選用灰度模式。針對老舊黑白照片或泛黃檔案應(yīng)選用灰度色彩模式,而不可選用黑白二值色彩模式,否則,掃描后,其圖像背景會出現(xiàn)黑點,嚴(yán)重的甚至?xí)霈F(xiàn)黑塊。
1.324位色彩
掃描儀24位色彩模式是以24個二進制位來表示像素顏色的模式,最多可表示224種顏色。與36位色彩和48位色彩 模式的差別難以通過人眼或顯示器分辨,一般用于有色文件選擇24位色彩模式即可,經(jīng)掃描后可直接生成豐富色彩圖像,保持彩色照片或有色檔案的原真性。24位色彩、36 位色彩或48位色彩模式的不足在于其掃描后的文教較大,掃描及運行速度較慢。適用范圍:紙質(zhì)紅頭文件;彩色插圖或彩色照片文件;嚴(yán)重泛黃的紙質(zhì)檔案。主要優(yōu)點:保留了紅頭文件、彩色文件的原真性。
綜上,檔案數(shù)字化掃描時選擇色彩模式應(yīng)考慮的因素包括:1)原件情況。對于影像清晰、檔案原件色彩簡單、色彩對比強烈的原件,采取3種色彩模式掃描的圖像清晰程度差異不明顯。影像不清晰,以及色彩對比不強烈的原件,采取彩色模式掃描的圖像,在展現(xiàn)檔案原件細(xì)節(jié)、清晰程度等方面要明顯優(yōu)于灰度模式或黑白模式掃描的圖像。2)硬件條件。傳統(tǒng)條件下,由于硬件所限,通常會綜合考慮圖像質(zhì)量、訪問速度、存儲成本等因素選擇色彩模式。隨著技術(shù)的進步,硬件考量因素將越來越被弱化。3)后期應(yīng)用。彩色模式可以轉(zhuǎn)換為灰度模式或黑白模式,為盡可能多地采集信息,彩色模式是最理想選擇。但是,對需要進行COM輸出的檔案,色彩模式對輸出效果的影響與縮微膠片輸出設(shè)備可接受的圖像色彩模式有很大關(guān)系。
2 ??存儲格式[6-8]
2.1TIFF格式
由Aldus和Microsoft公司開發(fā)的一種圖像文件格式,是一種可壓縮保存的圖像存儲格式。TIFF格式存盤時一般會選擇相應(yīng)項目,首先確定是PC機或是Mac機,是否需要LZW壓縮。由于TIFF格式不支持圖層,但支持A1pha通道,選擇LZW壓縮、選擇TIFF格式存盤時,能夠減少50%的存儲容量,且不影響圖像質(zhì)量。TIFF格式存儲掃描后的圖像文件,一般應(yīng)用于精度要求較高場合,是一種保真壓縮格式,但占用空間較大。
2.2JPEG格式
JPEG格式是一種常見的壓縮圖像文件格式,是由聯(lián)合照片專家組開發(fā),存儲于要求圖像精度不高、存儲量大的場合,大多會選擇JPEG格式。JPEG格式是一種有損壓縮文件存儲格式,在存盤時通過選擇具體的壓縮比(圖像質(zhì)量等級),確定相應(yīng)的存儲格式。要求圖像存儲質(zhì)量高清應(yīng)選擇High8以上的高質(zhì)量圖像壓縮方式,高清圖像模式壓縮條件下,其圖像容量較大;反之,圖像存儲容量變小,其質(zhì)量相對就會降低。JPEG格式存儲屬于有損壓縮,易造成圖像數(shù)據(jù)損傷,但存儲容量大,適宜網(wǎng)絡(luò)傳輸。
2.3JPEG2000格式
作為JPEG格式的升級版,JPEG2000版壓縮率升高了30%左右。JPEG2000版支持無損壓縮和有損壓縮兩種,其最大特征在于實現(xiàn)漸進傳輸,即,首先傳輸圖像輪廓,再逐步傳輸圖像數(shù)據(jù),提升圖像品質(zhì),使數(shù)字圖像由朦朧逐步清晰。且,JPEG2000支持“感興趣區(qū)域”特征,就影像上感興趣的區(qū)域進行壓縮,也可就指定區(qū)域先解壓縮。與傳統(tǒng)的JPEG相比,JPEG2000升級版具有顯著優(yōu)勢,且向下兼容,取代傳統(tǒng)JPEG格式,符合檔案數(shù)字化信息網(wǎng)絡(luò)傳輸需要。
2.4DjVu格式
1996年,美國電報電話公司實驗室開發(fā)一項新的圖片壓縮技術(shù)——DjVu,目前,其已成為標(biāo)準(zhǔn)圖像文檔存儲格式之一,逐漸成為網(wǎng)絡(luò)傳輸掃描文件、數(shù)碼照片、圖像文件等領(lǐng)域的主流技術(shù)之一。該技術(shù)科將所有傳統(tǒng)印刷資料實現(xiàn)網(wǎng)上高速傳播,壓縮比可達到1000∶1,300dpi分辨率的彩色頁面可從25MB壓縮至30-80KB,且圖像質(zhì)量依然很高。能夠分別儲存于不同層,再每一層進行最優(yōu)化壓縮,分別圖片中文字及圖片。DjVu下載后的圖像可直接存儲于計算機內(nèi)存,在瀏覽器中快速移動、縮放,該技術(shù)在靜態(tài)存儲及網(wǎng)絡(luò)傳輸方面具有很大優(yōu)勢。雖然該技術(shù)并未被納入國家標(biāo)準(zhǔn),但杭州市檔案館等國內(nèi)部分檔案館實現(xiàn)該技術(shù)的應(yīng)用,滿足檔案數(shù)字化掃描存儲,具有較強的應(yīng)用和推廣價值。
綜上,數(shù)字檔案掃描選擇相應(yīng)的存儲格式,需要考慮:保證數(shù)字檔案原真性,在此基礎(chǔ)上應(yīng)選擇占用存儲空間較小的存儲格式;兼容性較高的存儲格式;以及具有強大技術(shù)力量支持或者已列入標(biāo)準(zhǔn)化存儲格式。
3 分辨率[9]
衡量數(shù)字檔案掃描儀對圖像細(xì)節(jié)表現(xiàn)能力的參數(shù)通常用分辨率,即,每英寸掃描圖像中含有像素點的個數(shù)表示,記作dpi(dot per inch)。分辨率是數(shù)字檔案中最重要參數(shù),分辨率越高表明每英寸掃描圖像中的像素點的個數(shù)越多,圖像越清晰,但并不意味著分辨率越高,其效果就越好。分辨率對文件大小、掃描速度、圖像質(zhì)量和后期操作等都有不同程度的影響。
一是文件大小。檔案數(shù)字化掃描,分辨率設(shè)置越高,所產(chǎn)生的圖像文件就越大。通常,一張A4文件用黑白二值格式掃描成TIFF 格式圖像,其分辨率設(shè)定為 150dpi、200dpi、300dpi時,其文件大小分別為18K、29K、46K左右,而以24位真彩模式掃描成JEPG格式圖像,將其分辨率設(shè)定為150dpi、200dpi、300dpi時,其文件大小分別為290K、452K和871K,可見,分辨率越高,圖像文件就越大。二是掃描速度。檔案數(shù)字化掃描,分辨率設(shè)置越高,掃描的速度就會越低。通常,一張A4文件用黑白二值格式掃描,分辨率對其掃描速度的影響不明顯,但,選用24位真彩模式掃描,分辨率每提高50dpi,其掃描速度就會明顯受到影響。分辨率提高一倍,掃描所需時間就會增加一倍。如一名掃描員一天掃描1500張,因分辨率設(shè)置而使每一張掃描的時間多花2秒,一天就會多花300秒,即,50分鐘。三是圖像質(zhì)量。分辨率的增加對圖像質(zhì)量的影響呈現(xiàn)出遞減效應(yīng),即,邊際效用遞減。一開始,分辨率每增加一定量,其圖像質(zhì)量就會顯著提高,但隨著分辨率的不斷提高,對圖像質(zhì)量的影響幅度就會慢慢降低,當(dāng)?shù)竭_一定臨界點后,分辨率幾乎不影響到圖片質(zhì)量。因此,一味追求分辨率在無法提升圖片質(zhì)量的情況下,還會影響檔案數(shù)字化掃描效率,會起到反向效果。
四是后期操作。檔案數(shù)字化掃描分辨率設(shè)置過高,會影響其后期的掛接、處理速度,以及文件閱讀的速度,傳輸緩慢。
綜上,檔案數(shù)字化掃描分辨率設(shè)置沒有“最大”“最小”,一般分辨率參數(shù)設(shè)置≥100dpi,當(dāng)文檔字體偏小、清晰度較差時,可適當(dāng)提升分辨率。
4 亮 度[10]
亮度是指檔案數(shù)字化掃描過程中圖像的明暗程度參數(shù)。適當(dāng)調(diào)整圖像明暗程度,及其對比度值,會提升圖片識別率。通常,設(shè)定檔案數(shù)字化掃描亮度、對比度值,應(yīng)保證檔案掃描后圖像中文字筆畫均勻、較細(xì),沒有明顯斷點。因為,亮度太亮,掃描后圖像中的文字筆畫就容易出現(xiàn)斷裂或殘缺不全;而亮度太暗,圖像中文字筆畫又互相粘連,甚至漆黑一團。因此,針對底色較淺或者紙張光面的檔案資料進行數(shù)字化掃描,應(yīng)適當(dāng)調(diào)低其亮度;反之,對底色較深或者紙張較暗的檔案資料進行掃描,以及筆畫較粗、字體較小的黑體、楷體字在掃描時,應(yīng)適當(dāng)?shù)卣{(diào)高其亮度。檔案數(shù)字化彩色模式掃描,也會存在同樣掃描儀掃描的成品結(jié)果不相同的情況,究其原因,主要是計算機顯示器亮度及對比度差異;掃描儀色彩校正軟件出現(xiàn)問題,按照軟件推薦的參數(shù)調(diào)整較色軟件“亮度”“對比度”。還要注意掃描軟件中Gamma參數(shù)設(shè)置,該參數(shù)設(shè)置越大,亮度越高,紙質(zhì)顏色虛假失真。通常情況下,Gamma 參數(shù)設(shè)置為1.4,報紙、雜志等印刷品Gamma參數(shù)設(shè)置為1.8左右,檔案數(shù)字化掃描文件放置網(wǎng)頁,則Gamma參數(shù)設(shè)置為2.2左右。
結(jié)語
綜上,隨著數(shù)字時代的到來,數(shù)字化是檔案發(fā)展的趨勢和方向,也是提高檔案管理效率,發(fā)揮檔案價值和功能的重要手段。其中,色彩模式、存儲格式、分辨率和亮度等參數(shù)的科學(xué)設(shè)定,是提升數(shù)字化掃描關(guān)鍵環(huán)節(jié),也是增強檔案數(shù)字化質(zhì)量,適應(yīng)數(shù)字化時代發(fā)展的現(xiàn)實需要。
參考文獻:
[1]李如巖.檔案數(shù)字化掃描質(zhì)量及安全控制[J].蘭臺內(nèi)外,2022(3):33—35,32.
[2]傅榮校,翁敏曦.檔案數(shù)字化掃描與存儲格式比較研究[J].檔案與建設(shè),2006(11):10—13.
[3]謝君.大數(shù)據(jù)時代下檔案數(shù)字化掃描參數(shù)優(yōu)化設(shè)置探討[J].云南檔案,2017(4):51—53,56.
[4]龐莉. 特殊載體檔案數(shù)字化掃描處理方法探析
[J].北京檔案,2017(6):28—30.
[5]吳建鳳.檔案數(shù)字化掃描質(zhì)量與安全控制[J].辦公室業(yè)務(wù),2016(3):128—129.
[6]岳曉峰,孫浩,劉志芬.海洋科研紙質(zhì)檔案數(shù)字化掃描模式選擇和參數(shù)設(shè)置[J].檔案時空,2012(12): 40—42.
[7]可偉,陸麗萍.在檔案數(shù)字化加工過程中遇到的問題及解決辦法[J]. 檔案與社會,2016(4): 13— 16,19.
[8]李衛(wèi)華.文書檔案管理實現(xiàn)數(shù)字化的意義及措施[J].辦公室業(yè)務(wù),2020(13):178—179.
[9]齊紅晶.檔案數(shù)字化處理技術(shù)探討[J].黑龍江科技信息,2016(21):172.
[10]代清華.檔案數(shù)字化工作中的重難點探討[J].陜西檔案,2019(3):22—23.
作者簡介:王梅(1979— ),大學(xué)學(xué)歷,西安市鄠邑區(qū)人才交流中心檔案管理中級(館員),主要從事檔案管理研究。