賴雯
(廣東外語外貿(mào)大學(xué)檔案館,廣東 廣州 510420)
檔案數(shù)字化自20世紀(jì)80年代提出后,隨著檔案工作的發(fā)展,檔案數(shù)字化也進(jìn)入全面發(fā)展時(shí)期。檔案數(shù)字化的早期形式是將紙質(zhì)目錄轉(zhuǎn)化成電子目錄,并通過使用檔案系統(tǒng)對(duì)檔案文件進(jìn)行電子化管理。隨著檔案利用需求的增多,僅僅對(duì)檔案進(jìn)行目錄索引是遠(yuǎn)遠(yuǎn)不夠的,所以,各級(jí)政府機(jī)關(guān)、企事業(yè)單位都在開展存量紙質(zhì)檔案的數(shù)字化工作。通過對(duì)紙質(zhì)檔案進(jìn)行掃描和核對(duì),再將文件進(jìn)行目錄掛接到檔案系統(tǒng)。一方面,可以提高檔案信息檢索的效率,實(shí)現(xiàn)檔案全文信息檢索;另一方面,檔案利用時(shí)可優(yōu)先查看檔案系統(tǒng),減少對(duì)實(shí)體檔案的借閱,有利于保護(hù)檔案。而在紙質(zhì)檔案數(shù)字化的過程中,需要進(jìn)行嚴(yán)格的流程管理和質(zhì)量控制,以保證電子檔案的真實(shí)性和有效性。
根據(jù)國(guó)家檔案局2017-12-14發(fā)布、2018-01-01實(shí)施的最新《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》要求:掃描分辨率應(yīng)不小于200 dpi;比如文字偏小、密集、清晰度較差時(shí),建議掃描分辨率不小于300 dpi。掃描分辨率的選擇,應(yīng)保證掃描后圖像清晰、完整,并綜合考慮數(shù)字圖像后期利用方式等因素。如果有COM 輸出、仿真復(fù)制、印刷出版等其他用途時(shí),則可根據(jù)需要調(diào)整掃描分辨率。
需要進(jìn)行COM 輸出的檔案,掃描分辨率建議不小于300 dpi;需要進(jìn)行高精度仿真復(fù)制的檔案,掃描分辨率建議不小于600 dpi;需要進(jìn)行印刷出版的檔案,可結(jié)合檔案幅面、印刷出版幅面、印刷精度要求等選擇合適的分辨率。此外,紙質(zhì)檔案數(shù)字圖像長(zhǎng)期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實(shí)際應(yīng)用的需求而定。
《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》明確規(guī)定,在進(jìn)行數(shù)字化成果驗(yàn)收時(shí),應(yīng)采用計(jì)算機(jī)自動(dòng)檢驗(yàn)與人工檢驗(yàn)相結(jié)合的方式對(duì)紙質(zhì)檔案數(shù)字化成果進(jìn)行驗(yàn)收檢驗(yàn)。對(duì)數(shù)字圖像進(jìn)行驗(yàn)收,主要包括數(shù)字化參數(shù)、存儲(chǔ)路徑、命名的準(zhǔn)確性、圖像的完整性、排列順序的準(zhǔn)確性、圖像質(zhì)量等。
實(shí)際工作中,對(duì)于圖像質(zhì)量的檢測(cè),由于圖像數(shù)量大,如果采用人工檢驗(yàn)的方式,則需要耗費(fèi)大量的人力、物力逐一檢查,因此,對(duì)于數(shù)字化驗(yàn)收部門而言,需要根據(jù)需求開發(fā)一套自動(dòng)化圖像質(zhì)量檢測(cè)工具。
圖像分辨率指的是圖像中儲(chǔ)存的信息量,常用計(jì)算方法是每2.54 cm(每英寸)的像素?cái)?shù),單位為ppi,它決定了圖像細(xì)節(jié)的精細(xì)程度,分辨率越高,包含的像素點(diǎn)越多,圖像越清晰,能表現(xiàn)更豐富的細(xì)節(jié),印刷質(zhì)量更好。但分辨率更高的文件更大,需要耗用更多的存儲(chǔ)資源。如果保持圖像尺寸不變,將其圖像分辨率提高一倍,則其文件大小增大為原來的4倍。所以,圖像形成時(shí),要根據(jù)圖像最終的用途決定正確的分辨率。
圖像壓縮是指以較少的比特有損或無損地表示原來的像素矩陣的技術(shù),也稱圖像編碼。JPEG是最常用的圖像文件格式,是一種有損壓縮格式。如果使用過高的壓縮比例,將使最終解壓縮后恢復(fù)的圖像質(zhì)量明顯降低。在實(shí)際使用中,我們通過測(cè)試發(fā)現(xiàn),準(zhǔn)確率在90%以上時(shí),圖像質(zhì)量高且占用空間小,因此,將壓縮率(準(zhǔn)確率)90%作為檢測(cè)圖片質(zhì)量的標(biāo)準(zhǔn)。
圖像的垂直分辨率和水平分辨率屬性可以在Window 7系統(tǒng)中直接查看,但手動(dòng)查看需要耗費(fèi)大量的時(shí)間。而圖像的壓縮率/準(zhǔn)確率則無法通過系統(tǒng)自帶的屬性查看,需要專門的圖像處理工具收集信息。
ImageMagick圖片處理是一套功能強(qiáng)大、穩(wěn)定、免費(fèi)開源的工具集和開發(fā)包,可以用來讀、寫和處理超過90種的圖片文件,包括流行的TIFF、JPEG、GIF、PNG、PDF以及PhotoCD等格式。
本文通過下載并安裝開源的Imagemagick開發(fā)包,在VS.NET平臺(tái)上,開發(fā)應(yīng)用程序,實(shí)現(xiàn)對(duì)文件夾下所有讀片的信息讀取,并將結(jié)果輸出到CSV文件中。
算法的主要思想是對(duì)輸入的文件路徑,遍歷搜索該路徑下所有的文件(含子文件夾),并對(duì)結(jié)果文件進(jìn)行篩選,將圖片文件存儲(chǔ)到數(shù)據(jù)集中,再對(duì)數(shù)據(jù)集中的所有文件讀取圖像屬性信息,并寫入CSV文件。具體如表1所示。
通過使用開發(fā)的小工具,可以大批量讀取待檢測(cè)圖像文件的信息,進(jìn)行自動(dòng)化檢測(cè)。打開結(jié)果文件,即可進(jìn)行質(zhì)量檢測(cè)及幅面大小統(tǒng)計(jì)。
以黨群數(shù)據(jù)集為例,共有40 363張圖片,38.1 G。如果人工打開一個(gè)個(gè)文件去查看圖像分辨率,假設(shè)一個(gè)文件夾含10個(gè)文件,查看一個(gè)文件夾并切換到其他文件夾平均需30 s,對(duì)于圖像總數(shù)量為40 363張圖片的項(xiàng)目,手動(dòng)查看它們的分辨率需耗34 h,且無法準(zhǔn)確記錄分辨率不符合要求的圖像。在普通電腦上測(cè)試發(fā)現(xiàn),對(duì)于同樣的數(shù)據(jù)集,小工具將全部結(jié)果寫入CSV文件需要67 min,結(jié)果顯示通過編程,讓程序自動(dòng)檢測(cè),可節(jié)約大量的人工成本。
實(shí)際應(yīng)用中,大學(xué)檔案館每年數(shù)字化掃描的工作量達(dá)1 000 000頁及以上,通過使用小工具,一方面可以提高項(xiàng)目驗(yàn)收的準(zhǔn)確度,一方面可以提高驗(yàn)收效率。
[1]王學(xué)平.淺議我國(guó)檔案數(shù)字化建設(shè)實(shí)踐與發(fā)展策略[J].檔案學(xué)通訊,2011(06):54-57.
[2]李學(xué)廣.檔案數(shù)字化方案研究[J].中國(guó)檔案,2007(06):52-53.