本文對(duì)檔案數(shù)字化加工流程中出現(xiàn)的許多質(zhì)量控制問(wèn)題進(jìn)行歸納,提出相應(yīng)的對(duì)策與建議。
1 檔案數(shù)字化流程
1.1 檔案整理。紙質(zhì)檔案歸檔過(guò)程中,對(duì)采用手書(shū),字跡潦草,包含簡(jiǎn)化字、繁體字、口語(yǔ)字等難以識(shí)別和錄入的文檔,要通過(guò)請(qǐng)教老同志以及上網(wǎng)查詢等方法科學(xué)提取文件題名、責(zé)任者等檢索信息,確保相關(guān)信息的準(zhǔn)確性、完整性。
1.2 條目錄入。目錄數(shù)據(jù)庫(kù)一般應(yīng)包括全宗號(hào)、目錄號(hào)、件號(hào)、文件編號(hào)、責(zé)任者、文件題名、機(jī)構(gòu)或問(wèn)題、文件時(shí)間、保管期限、頁(yè)數(shù)、盒號(hào)、錄入人、錄入時(shí)間、密級(jí)、原文數(shù)量等項(xiàng)目。條目錄入的完整與否,直接關(guān)系到利用的方便與效果。
1.3 檔案掃描和圖像處理。在使用高速掃描儀前,應(yīng)拆除裝訂物。掃描工作完成后,拆除過(guò)裝訂物的檔案應(yīng)按檔案保管的要求重新裝訂?;謴?fù)裝訂時(shí),應(yīng)注意保持檔案的排列順序不變,做到安全、準(zhǔn)確、無(wú)遺漏。破損嚴(yán)重、無(wú)法直接進(jìn)行掃描的檔案,應(yīng)先進(jìn)行技術(shù)修復(fù),折皺不平影響掃描質(zhì)量的原件,應(yīng)先進(jìn)行相應(yīng)處理(壓平或燙平等)后再進(jìn)行數(shù)字化加工。
檔案掃描過(guò)程中的質(zhì)量指標(biāo)控制。文本掃描:TIF格式,應(yīng)保存為黑白頁(yè)面,并采用CCITT4壓縮。雙層PDF格式,重要的用彩色,普通的用黑白。
亮度設(shè)置:紙張明暗和亮度成反比,紙?jiān)桨盗炼纫礁撸堅(jiān)桨琢炼纫降?。有些字跡比較模糊的文檔,亮度可以調(diào)低點(diǎn),掃出的字跡會(huì)更清晰。
噪點(diǎn)控制:噪點(diǎn)的產(chǎn)生隨著亮度的變化而改變,亮度越低,噪點(diǎn)越多,亮度越高,噪點(diǎn)越少。
分辨率設(shè)置:黑白二值、灰度、彩色幾種模式均選擇大于或等于100dpi。需要進(jìn)行OCR漢字識(shí)別的檔案,分辨率建議選擇“大于”或“等于”200dpi。
1.4 數(shù)據(jù)掛接。原文掛接前,要檢查原文件號(hào)與目錄件號(hào)是否一致,文件名是否正確。
1.5 數(shù)據(jù)驗(yàn)收。數(shù)據(jù)驗(yàn)收要把好四關(guān):一是目錄錄入項(xiàng)目是否完整、正確。二是原文分辨率是否符合要求。三是原文處理是否符合要求。四是掛接的原文與目錄是否一致。
1.6 數(shù)據(jù)備份。在數(shù)據(jù)庫(kù)中,把目錄和原文打包刻錄成光盤(pán),一份移交檔案館電子文檔中心,一份留在本單位,做到雙重備份。
2 檔案數(shù)字化加工中的常見(jiàn)問(wèn)題與對(duì)策
2.1 條目錄入常見(jiàn)問(wèn)題
2.1.1 責(zé)任者簡(jiǎn)略不規(guī)范。如,白沙鎮(zhèn)政府或白沙鎮(zhèn)黨委只簡(jiǎn)寫(xiě)為“白沙鎮(zhèn)”。
2.1.2 責(zé)任者不帶地區(qū)標(biāo)識(shí)。如,縣檔案局,只填寫(xiě)“檔案局”,分不清是市檔案局還是縣檔案局。
2.1.3 題名太長(zhǎng),打印時(shí)不能完整顯示,在遇到題名太長(zhǎng)時(shí),要適當(dāng)略寫(xiě),盡量控制在50個(gè)字以內(nèi)。
2.1.4 題名太簡(jiǎn),如只有“通知”二字,要根據(jù)內(nèi)容重新擬寫(xiě)題名,使題名能反映出文件內(nèi)容。
2.2 文檔掃描常見(jiàn)問(wèn)題
2.2.1 把純文本文件掃成彩色TIF格式,生成的文件太大,有的單頁(yè)面數(shù)據(jù)就達(dá)10MB左右。
2.2.2 掃描時(shí)出現(xiàn)漏掃頁(yè)面,這種情況一旦出現(xiàn),校對(duì)起來(lái)真如“大海撈針”。筆者推薦使用帶超聲波檢測(cè)的掃描儀,可以自動(dòng)檢測(cè)重張,不會(huì)產(chǎn)生漏掃情況。
2.2.3 頁(yè)面噪點(diǎn)太多,后期處理將會(huì)十分麻煩。
2.2.4 紅色硬皮目標(biāo)責(zé)任書(shū)類掃描為純黑色頁(yè)面。對(duì)這類文件掃描時(shí),亮度要調(diào)到50~70之間。
2.3 原文掛接常見(jiàn)問(wèn)題
2.3.1 掛接的原文張冠李戴。檢查目錄號(hào)與原文件號(hào)是否一致并進(jìn)行調(diào)整。
2.3.2 黑邊、歪斜、噪點(diǎn)、方向沒(méi)有處理,要返工重新處理。檔案數(shù)字化加工要認(rèn)真落實(shí)三重校驗(yàn)制度,確保數(shù)字化加工準(zhǔn)確無(wú)誤。第一重校驗(yàn)——對(duì)數(shù)據(jù)庫(kù)目錄進(jìn)行檢查,檢查目錄著錄項(xiàng)是否完整,著錄項(xiàng)內(nèi)容是否正確,發(fā)現(xiàn)問(wèn)題,返回重錄。第二重校驗(yàn)——對(duì)圖像偏斜度、清晰度、失真度等進(jìn)行檢查, 核對(duì)文件內(nèi)的頁(yè)數(shù)是否與紙質(zhì)檔案頁(yè)數(shù)相符,并按圖像上的頁(yè)號(hào)進(jìn)行檢查,如次序不對(duì)進(jìn)行調(diào)整,以確保電子影像的順序與實(shí)際紙張資料的順序完全相符。第三重校驗(yàn)——對(duì)數(shù)據(jù)庫(kù)中目錄和原文的年度、保管期限、件號(hào)進(jìn)行檢查,確保掛接后的原文和目錄對(duì)應(yīng)。
(作者單位:中牟縣文化館 來(lái)稿日期:2012-06-20)