賈 薇 班 晶
(中國人民解放軍92981部隊,北京 100161)
按照《紙質(zhì)檔案數(shù)字化規(guī)范》(DA/T 31-2017,下文簡稱《規(guī)范》)[1]規(guī)定,紙質(zhì)檔案數(shù)字化基本環(huán)節(jié)主要包括:數(shù)字化前處理、目錄數(shù)據(jù)庫建立、檔案掃描、圖像處理、數(shù)據(jù)掛接、數(shù)字化成果驗收與移交等。雖然檔案掃描環(huán)節(jié)的圖像問題大多可通過后期的圖像處理解決,但如果掃描文件本身的質(zhì)量不高,一方面增加了后期圖像處理的工作量,另一方面也增加了圖像處理的難度。在存儲成圖片格式之前的掃描階段進行圖片處理是事半功倍的,針對不同的原稿可以使掃描出的圖像還原更實、細節(jié)更完善[2]。通過提高掃描文件的質(zhì)量,還可大幅減輕后期對掃描文件進行圖像處理的工作量。
在掃描設(shè)備的選取上,《規(guī)范》并未做硬性規(guī)定,具體操作時可根據(jù)需要進行選擇,但總體上要注意對檔案實體的保護,并盡可能保持檔案原貌[3]。掃描儀是檔案掃描常用工具之一,因此本文主要以掃描儀為例進行分析,它通過發(fā)射光源到待掃描文件上,收集反射的光線到圖像傳感器,圖像傳感器將光信號轉(zhuǎn)換為模擬電流信號,模擬電流信號經(jīng)過放大及模數(shù)轉(zhuǎn)換、信號處理,最終在計算機上獲得文件圖像。
《規(guī)范》中要求掃描儀參數(shù)的設(shè)置和調(diào)整應(yīng)保證掃描后數(shù)字圖像清晰、完整、不失真,圖像效果最接近檔案原貌。一般來說,掃描儀的主要設(shè)置參數(shù)包括:進紙方式、紙張尺寸、顏色、分辨率、亮度、對比度、文件格式等,其中文件格式為最終掃描輸出的文件格式,選擇好檔案數(shù)字化副本存儲格式,既可減少存儲空間,也可提高上傳、下載速度,具有重要意義[4]。一些功能豐富的掃描儀還有去除黑邊、顏色校正等功能,根據(jù)需要合理使用可獲到較好的掃描效果。
公文檔案中的文件紙張根據(jù)不同時期公文用紙的規(guī)定而發(fā)生變化,《國家機關(guān)公文格式》(GB/T 9704-1988)[5]中規(guī)定 “公文用紙的幅面尺寸一般用16開型260mm×184mm,有條件機關(guān)和涉外部門,可推薦采用國際標(biāo)準(zhǔn)A4型。”2000年開始實施的《國家行政機關(guān)公文格式》(GB/T 9704—1999)[6]中規(guī)定公文用紙采用GB/T 148中規(guī)定的A4型紙,其成品幅面尺寸為:210mm×297mm,2012年發(fā)布并實施的《黨政機關(guān)公文格式》(GB/T 9704-2012)[7]中仍規(guī)定公文用紙幅面尺寸采用GB/T 148中規(guī)定的A4型紙,因此在進行檔案數(shù)字化時,應(yīng)根據(jù)公文用紙幅面尺寸設(shè)置掃描儀的幅面尺寸,避免由于紙張尺寸設(shè)置錯誤導(dǎo)致文件內(nèi)容掃描不全。
另外,當(dāng)掃描儀最大為A4幅面時,由于部分文件中的表格為A3幅面,就可能出現(xiàn)紙張幅面大于掃描儀的情況,可通過兩種方式解決:第一種是采用更大幅面掃描儀進行掃描,第二種是將原文件用掃描儀分塊掃描后,用軟件將局部掃描的文件進行拼接處理。
當(dāng)打印機出現(xiàn)故障時,打印出的頁面可能出現(xiàn)重影,但鑒于保持檔案原貌的原則,此種情況無須處理。另一方面,可能由于早期公文紙張厚度不足,正面透出背面內(nèi)容,在進行數(shù)字化掃描時背面的內(nèi)容也會反射光線,生成相應(yīng)圖像,掃描的文件中就出現(xiàn)了文字重影。由于一般重影文字與原文字顏色的灰度不同,可利用灰度直方圖進行閾值處理,通過手動選擇閾值或由程序通過自適應(yīng)算法自動計算得到閾值,把像素值處于閾值范圍外的點的顏色賦予白色值。利用這一特點,可在掃描儀的設(shè)置中調(diào)節(jié)灰度直方圖閾值范圍,即可去除由于紙張較薄而造成的圖像重影,使掃描的文件內(nèi)容更加清晰。
掃描文件出現(xiàn)黑線,如果經(jīng)過檢查發(fā)現(xiàn)是原始文件的問題,應(yīng)遵循展現(xiàn)檔案原貌的原則,處理過程中不得去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等痕跡,因此這種情況下不應(yīng)進行處理。
如果原始文件沒有問題,而掃描出的文件有問題,則可檢查掃描儀平板及搓紙輪是否有臟污,如果平臺玻璃板上粘有顆粒物等,在掃描過程中,當(dāng)光線照亮玻璃板上的原稿時,顆粒物等會將光線反射至反光鏡,導(dǎo)致感光器件識別信號,經(jīng)過模電轉(zhuǎn)換,最終在生成的掃描文件上出現(xiàn)黑點。因此應(yīng)當(dāng)定期對掃描儀平臺玻璃板、搓紙輪進行擦拭清潔,當(dāng)掃描儀不用時,盡量將平臺玻璃板上的保護蓋放下以防止灰塵進入。
如果掃描文件出現(xiàn)文字傾斜,此時可打開掃描儀的“自動傾斜校正”功能,該技術(shù)可通過計算輸入的文書中的網(wǎng)格線、文字、圖片等的排列方向,檢測傾斜角度并進行自動校正。
由于部分文件裝訂原因,無法逐頁掃描,也無法180度平展,這樣就可能造成漏光,當(dāng)掃描到漏光的區(qū)域時,由于沒有物體反射光線,形成了黑色的區(qū)域,掃描文件就會帶有黑邊,通過打開掃描儀“去除黑邊”功能可以有效去除掃描出的黑邊。
在數(shù)字化過程中,有時會出現(xiàn)掃描儀卡紙問題,一般可能有如下幾個原因:
1)紙張?zhí)。捍昙堓喴淮未陝恿藬?shù)張紙,或是搓紙過程中較薄的紙張發(fā)生皺褶,導(dǎo)致機器在掃描的過程中卡住,因此建議在掃描紙張較薄的文件時,不要放進自動進紙器,而應(yīng)放在平臺上進行掃描。例如早期檔案里部分文件的底稿為信箋手寫稿,紙張又薄又軟,在這種情況下就應(yīng)該將文件放在平臺上進行逐張掃描。
2)文件的裝訂沒有完全去除:有時原文件為了裝訂穩(wěn)固,可能進行了多次裝訂,如果去掉部分裝訂后未仔細檢查,里面仍有裝訂在一起的文件,也會發(fā)生卡紙,因此建議在使用進紙器進行掃描前,應(yīng)仔細檢查是否已取出所有裝訂物,之后再放入進紙器。需注意應(yīng)按照《規(guī)范》,應(yīng)以對紙質(zhì)檔案的保護為原則確定是否拆除裝訂。如需拆除裝訂物,應(yīng)注意保護檔案不受損害,并對排列順序不準(zhǔn)確的檔案進行重排。特殊裝訂且拆除裝訂后需恢復(fù)的檔案,在拆除裝訂物時應(yīng)采用拍照等方式記錄檔案原貌,以便于恢復(fù)。
3)搓紙輪磨損:掃描儀的搓紙輪由于使用頻繁,表面會發(fā)生磨損,有時一側(cè)搓紙輪正常,而另一側(cè)的搓紙輪無法搓動,導(dǎo)致文件進入進紙器時發(fā)生傾斜,傾斜后進紙器寬度不足使得紙張向內(nèi)皺折,皺折的紙張過厚會發(fā)生卡紙,且搓紙輪如果搓紙不均勻,可能撕扯損毀文件,若出現(xiàn)此類問題,建議及時更換新的搓紙輪。
色彩、分辨率以及保存格式是影響文件的存儲空間大小的主要因素。對于色彩部分,應(yīng)按照《規(guī)范》要求,文件中有彩色的內(nèi)容應(yīng)用彩色掃描,其他可用黑白掃描,即可縮小掃描文件的大??;分辨率會影響掃描所需的時間及掃描出的文件大小,為了盡可能節(jié)省掃描時間、節(jié)約存儲空間,文件分辨率不宜設(shè)置過高,一般文件不低于200dpi即可,對于要求比較高的文件,可設(shè)置分辨率為300dpi及以上;TIFF是當(dāng)今使用得最普遍的存儲格式,其優(yōu)點是可以實現(xiàn)對圖像的無壓縮存儲或無損壓縮存儲,能保持原有圖像的顏色和層次;另一優(yōu)點是可以多個數(shù)字影像合成為一個文件,用多頁TIFF加以保存,非常適合檔案[8]。因此在條件允許的情況下,盡量使用TIFF格式進行存儲,如果存儲空間實在有限,可對圖像進行適當(dāng)壓縮,存儲為JPEG或JPEG2000等通用格式,并根據(jù)實際應(yīng)用的需求選擇圖像壓縮率,但要注意盡量保證掃描的文件內(nèi)容清晰。另外需要注意的是要妥善保存原始掃描數(shù)據(jù)。有的單位在后期利用數(shù)據(jù)進行時,為了便于顯示,對文件進行了整體壓縮,壓縮后的數(shù)據(jù)固然更便于查詢調(diào)用,但由于壓縮后的數(shù)據(jù)損失了一部分信息,后續(xù)可能無法完全滿足需求,所以一定要妥善保存原始掃描數(shù)據(jù)。
在掃描時應(yīng)注意按照單位相關(guān)規(guī)定區(qū)分涉密文件與非密文件,對于涉密文件,在掃描之前應(yīng)確定文件密級,取出檔案中禁止掃描的文件再進行后續(xù)處理。一般不對絕密文件進行數(shù)字化,機密級及以下密級文件必須嚴(yán)格按照保密管理規(guī)定進行處理??紤]到傳統(tǒng)的檔案整理特別強調(diào)文件內(nèi)容間的有機聯(lián)系,可能將涉密信息與非涉密信息混雜在一起,但是數(shù)字化以后,會依據(jù)文檔密級確定查詢權(quán)限,因此掃描時要準(zhǔn)確錄入文件的密級信息,便于后續(xù)查找利用。
一方面可能是檔案自身存在問題,為了避免出現(xiàn)此類情況,在進行掃描前首先要檢查案卷完整性,確保待掃描檔案完整、正確后再進行掃描,另外,掃描完后要及時進行校對,以防漏少、多掃或重掃情況的發(fā)生;另一方面可能是掃描時出現(xiàn)了缺漏,比如紙張由于靜電吸附效應(yīng),導(dǎo)致掃描儀未掃入部分紙張內(nèi)容。靜電吸附主要是由于空氣干燥及紙張含水量低的原因,很容易讓紙張產(chǎn)生靜電粘在一起,從而導(dǎo)致雙張或多張同時被傳送掃描[9]。因此在掃描時應(yīng)使用加濕器等,將環(huán)境濕度控制在45%-55%之間,以減少紙張的靜電吸附效應(yīng)。
本文總結(jié)了檔案掃描過程中遇到的問題,提出了相應(yīng)的解決方法,可為檔案掃描工作提供參考,通過使用本文提出的方法,可進一步提高掃描文件質(zhì)量,減少后期處理工作,具有重要的實際應(yīng)用價值。
目前的檔案掃描工作是在紙質(zhì)文件整理形成檔案后進行的,隨著計算機技術(shù)的發(fā)展,公文也逐漸實現(xiàn)了無紙化流轉(zhuǎn),部分紙質(zhì)文件需要先進行數(shù)字化掃描再進行流轉(zhuǎn)直至歸檔,數(shù)字化掃描需求將更加前置,在這種情況下,如何進一步提高掃描文件的效率將成為關(guān)注的重點。由于檔案數(shù)字化掃描是一項費時費力的工作,需要極大的耐心與責(zé)任心,掃描人員需要掌握一定的操作技術(shù)和方法,充分掌握合格圖像的標(biāo)準(zhǔn)要求[10],才能盡可能保證掃描文件的質(zhì)量,因此建議一方面在條件允許的情況下盡可能配備分辨率高、功能完善的掃描儀,從而保證掃描出的文件的清晰度及準(zhǔn)確度,另一方面要加強掃描檔案人員培訓(xùn),掌握相關(guān)要求,不斷提高掃描水平。