魏自鵬
(安徽醫(yī)學(xué)高等專科學(xué)校, 安徽 合肥 230000)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的普及應(yīng)用,人們獲取信息的方式和途徑已經(jīng)發(fā)生了根本性變化,為適應(yīng)新的形勢和環(huán)境,檔案工作也應(yīng),一個(gè)明顯變化就是對傳統(tǒng)紙質(zhì)檔案進(jìn)行數(shù)字化加工已成常態(tài)[1]。然而,為使紙質(zhì)檔案數(shù)字化加工工作更加科學(xué)高效,必須選擇合適的加工途徑,明確具體的操作流程、方法細(xì)節(jié)以及注意事項(xiàng),為此,筆者結(jié)合工作實(shí)踐試圖加以梳理和探討。
為保證檔案數(shù)字化工作的順利完成,必須明確檔案數(shù)字化的總體目標(biāo),做好總體規(guī)劃和分步計(jì)劃。包括需要數(shù)字化加工的檔案門類、數(shù)量、范圍,完成的時(shí)間節(jié)點(diǎn),質(zhì)量要求。同時(shí)應(yīng)遵循“先行試點(diǎn)、重點(diǎn)優(yōu)先、分步實(shí)施、穩(wěn)步推進(jìn)、品質(zhì)優(yōu)良、安全保密”的原則。這里的先行試點(diǎn)是為了減少失誤和損失,選取少量檔案先行試驗(yàn),以便于熟悉工作流程、積累工作經(jīng)驗(yàn);重點(diǎn)優(yōu)先,是指利用率高的、珍貴的、重要的檔案優(yōu)先加工;分步實(shí)施、穩(wěn)步推進(jìn)則是指根據(jù)自身人財(cái)物的實(shí)際,分批、分步完成;品質(zhì)優(yōu)良、安全保密則要求檔案數(shù)字化副本清晰度高、格式規(guī)范,盡量做到紙質(zhì)檔案只掃描一次,最大限度保護(hù)檔案實(shí)體及檔案內(nèi)容信息安全。
紙質(zhì)檔案數(shù)字化的前期準(zhǔn)備和處理,關(guān)系到檔案數(shù)字化的成敗和工作效率的提高,應(yīng)重點(diǎn)做好以下幾個(gè)方面。
1.檔案管理軟硬件配置
需要配置能夠掛接紙質(zhì)檔案數(shù)字化副本的性能較為優(yōu)良的檔案管理軟件,最好是基于B/S架構(gòu)的網(wǎng)絡(luò)版軟件,能夠?qū)崿F(xiàn)全文檢索和數(shù)據(jù)掛接等功能,也便于節(jié)省后期軟件維護(hù)、升級(jí)和開發(fā)成本,以及檔案的開發(fā)利用。硬件方面,需配置必要的服務(wù)器,并預(yù)留適當(dāng)?shù)拇鎯?chǔ)空間,一般按每年新增數(shù)字化副本量的3~5倍預(yù)留即可。服務(wù)器可以單獨(dú)購買配置;也可以由單位統(tǒng)一配置,劃出一部分存儲(chǔ)空間(虛擬動(dòng)態(tài)的),采用云服務(wù)模式。而統(tǒng)一配置的云服務(wù)模式因具有規(guī)模效應(yīng)、節(jié)省運(yùn)維費(fèi)用、減少檔案館(室)對計(jì)算機(jī)專業(yè)人員的依賴等優(yōu)點(diǎn),越來越成為一種趨勢。
如果是單位自行加工檔案,還需要配置必要的掃描儀,最好是高速雙面進(jìn)紙加平板的雙平臺(tái)掃描儀,進(jìn)紙速度在40頁/分以上,至于紙張較大的圖紙,如財(cái)力有限,可租賃專用掃描儀。此外,還需購買(或自行開發(fā))配套的文檔掃描影像處理系統(tǒng)(如銳爾文檔掃描影像處理系統(tǒng))。主要功能包括:對電子文件(夾)名的批量替換、更改、添加前后綴,根據(jù)導(dǎo)出的檔案數(shù)據(jù)庫條目檔號(hào)(導(dǎo)入EXCEL表)批量創(chuàng)建電子文件夾和文件名,對掃描圖片的批量糾偏、旋轉(zhuǎn)、去黑邊、去污、自動(dòng)合成PDF(包括雙層PDF)文件等,以便對掃描圖像進(jìn)行高質(zhì)量地處理和向檔案數(shù)據(jù)庫進(jìn)行批量掛接。
2.人員準(zhǔn)備
如果是單位自行數(shù)字化加工還需配備恰當(dāng)?shù)墓ぷ魅藛T,可以通過內(nèi)部培養(yǎng)、借調(diào)或外部招聘的方式來實(shí)現(xiàn)?;疽笫悄軌蚴煜n案數(shù)字化加工的基本流程,會(huì)使用數(shù)字化加工軟件、掃描設(shè)備等,能夠完成掃描圖像的去污、糾偏、圖像轉(zhuǎn)換等基本操作即可,并不需要多專業(yè)的計(jì)算機(jī)技術(shù)人員?,F(xiàn)實(shí)中,從事檔案工作的人員多是文科背景,一聽說需要軟件操作、圖像處理等計(jì)算機(jī)方面的技能就會(huì)退縮,甚至望而卻步,其實(shí)檔案數(shù)字化工作一般工作人員通過學(xué)習(xí)培訓(xùn)完全可以勝任。
3.熟悉相關(guān)法律法規(guī)
應(yīng)熟悉和理解國家制定的檔案數(shù)字化方面的法律法規(guī)、行業(yè)標(biāo)準(zhǔn),主要包括《檔案法》、《紙制檔案數(shù)字化規(guī)范》(DA/T31-2017)、《檔案服務(wù)外包工作規(guī)范》(DA/T68-2017)、《電子文件歸檔與管理規(guī)范》(GB/T18894-2016)、《歸檔文件整理規(guī)則》(DA/T 22-2015)、《檔案著錄規(guī)則》(DA/T 18-1999)、《紙質(zhì)歸檔文件裝訂規(guī)范》(DA/T 69-2018)等,重點(diǎn)知悉紙質(zhì)檔案數(shù)字化副本的技術(shù)規(guī)范、質(zhì)量要求等?!都堉茩n案數(shù)字化規(guī)范》(DA/T31-2017)規(guī)定:“掃描分辨率應(yīng)不小于200 dpi。如文字偏小、密集、清晰度較差時(shí),建議掃描分辨率不小于300 dpi”;“紙質(zhì)檔案數(shù)字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式”;“從網(wǎng)絡(luò)瀏覽速度、易操作性、存儲(chǔ)空間占用等方面進(jìn)行綜合考慮,將圖像轉(zhuǎn)換為OFD(中國標(biāo)準(zhǔn))、PDF(國際標(biāo)準(zhǔn))等其他格式”。
從實(shí)際工作來看,建議盡量將檔案材料掃描成彩色模式、掃描分辨率最好全部不小于300 dpi,如有特殊需求,分辨率另行選擇,如“進(jìn)行仿真復(fù)制的數(shù)字圖像分辨率不應(yīng)低于600 dpi”;圖像保存為TIFF、JPEG(或JPEG2000)、PDF(或OFD)格式即可,需知“不同格式適用的場景不同。TIFF存儲(chǔ)信息量大,適用于圖像的長期存儲(chǔ);JPEG具有調(diào)節(jié)圖像質(zhì)量的功能”,可運(yùn)用不同的壓縮比找到圖像質(zhì)量和文件大小之間的平衡點(diǎn);而PDF、OFD格式便于網(wǎng)絡(luò)應(yīng)用[2];對所載信息珍貴且使用頻率較高的檔案最好轉(zhuǎn)換為雙層PDF文件。這里的雙層PDF文件實(shí)質(zhì)是“PDF文件的一種衍生品,包含文本(Text)和圖像(Image)的雙層結(jié)構(gòu)”,圖像層保持原始檔案效果,文本層支持選擇、(全文)檢索和復(fù)制等功能[3]。
4.檔案材料處理
應(yīng)對需要數(shù)字化加工的檔案材料進(jìn)行重新審查,重點(diǎn)檢查檔案紙張情況,包括紙張種類、質(zhì)地、尺寸大小、損壞情況等,明確哪些紙張適合快速批量掃描,哪些紙張只能通過平板掃描,哪些需要專門設(shè)備進(jìn)行掃描,發(fā)現(xiàn)破損的應(yīng)進(jìn)行修表處理。同時(shí),確保檔案數(shù)據(jù)庫目錄和檔案材料一一對應(yīng)、準(zhǔn)確無誤,案卷級(jí)檔案中沒有卷內(nèi)文件目錄的應(yīng)重新著錄。
檔案數(shù)字化的方式主要有兩種:一種是外包給專門的檔案數(shù)字化服務(wù)公司;另一種則是單位自行加工。當(dāng)然,也存在兩者相結(jié)合的方式以及其他衍生方式。至于要選擇哪一種,需根據(jù)自身實(shí)際情況定奪。一般來說,對于存量紙質(zhì)檔案,如果數(shù)量較大,本單位設(shè)備、技術(shù)和人手有限,又想盡快實(shí)現(xiàn)檔案數(shù)字化,可通過服務(wù)外包的形式;相反,則可以選擇自行加工。但對于每年新增的紙質(zhì)檔案,出于檔案安全和工作便利,建議還是單位自行加工為好。
1.選擇服務(wù)外包的方法
若要選擇服務(wù)外包,一般是通過招標(biāo)的形式來完成。這里,除做好前期準(zhǔn)備和檔案材料處理之外,有必要做下市場調(diào)研,了解實(shí)時(shí)市場行情、加工價(jià)格等,以便做好經(jīng)費(fèi)預(yù)算。之后就是招標(biāo)書的編制與發(fā)布,在標(biāo)書撰寫時(shí),可參考其他單位的成功經(jīng)驗(yàn),同時(shí)將國家規(guī)范、行業(yè)標(biāo)準(zhǔn)融入進(jìn)去,寫明需加工的檔案內(nèi)容、紙張材料、規(guī)格尺寸、加工數(shù)量、工作場地、工作流程、設(shè)備保障、工作時(shí)限、服務(wù)質(zhì)量要求以及驗(yàn)收標(biāo)準(zhǔn)等具體細(xì)節(jié),尤其要強(qiáng)調(diào)掃描圖像的色彩模式、分辨率、存儲(chǔ)格式、最終成果的形式,以及是否需要OCR識(shí)別、識(shí)別的精度等。
標(biāo)書的發(fā)布,最好選擇知曉范圍大的平臺(tái),務(wù)必找到有資質(zhì)的外包公司,不建議采取低價(jià)中標(biāo)的方式選擇一些沒有資質(zhì)的外包公司,以免加工質(zhì)量不達(dá)標(biāo),白白浪費(fèi)了人力、物力和時(shí)間。外包公司在作業(yè)期間,務(wù)必派專人對接和負(fù)責(zé),重點(diǎn)做好案卷借還、工作監(jiān)控、數(shù)據(jù)保密。 需要強(qiáng)調(diào)的是,案卷應(yīng)當(dāng)天借還,當(dāng)天加工多少借還多少;工作監(jiān)控絕不是一種形式,務(wù)必做實(shí)做細(xì),且監(jiān)控?cái)?shù)據(jù)保存期限不應(yīng)低于3個(gè)月;加工的數(shù)據(jù)成果也應(yīng)通過必要的方式進(jìn)行加密處理,以確保檔案實(shí)體及數(shù)據(jù)信息安全。
2.自行加工的方法
應(yīng)首先制定詳細(xì)的檔案數(shù)字化加工方案,確定工作流程,一般包括案卷拆分、掃描加工、案卷著錄、數(shù)據(jù)掛接、質(zhì)量檢查等環(huán)節(jié)。
案卷拆分可以和案卷前期處理放在一起,拆除裝訂線、金屬物(不能拆除的應(yīng)專門處理),并根據(jù)紙張規(guī)格、質(zhì)地、案卷類別等進(jìn)行分類。
掃描加工時(shí),應(yīng)先建立項(xiàng)目文件夾,然后根據(jù)檔案數(shù)據(jù)庫中的檔號(hào)建立子文件夾(案卷級(jí)還應(yīng)建立案卷級(jí)文件夾),之后即可批量快速掃描,并建議將掃描圖片以“檔號(hào)+件內(nèi)頁數(shù)流水號(hào)+擴(kuò)展名”的方式命名后放入相應(yīng)的文件夾中,“件內(nèi)頁數(shù)流水號(hào)”可用4位阿拉伯?dāng)?shù)字標(biāo)識(shí),不足4位的,前面補(bǔ)“0”。如,名為“2020文書檔案數(shù)字化JPG副本”的項(xiàng)目文件夾中,全宗號(hào)為“Z101”,機(jī)構(gòu)代碼為“BGS”、保管期限為“永久”的第3件檔案有2頁,其命名可為:子文件夾名“Z101-WS·2020-Y-BGS- 0003”,圖片名“Z101-WS·2020-Y-BGS- 0003- 0001.jpg”和“Z101-WS·2020-Y-BGS- 0003- 0002.jpg”。轉(zhuǎn)化為PDF的數(shù)字化副本命名方法類似,如上例可為“Z101-WS·2020-Y-BGS- 0003.PDF”。當(dāng)然,掃描圖片一般需經(jīng)過糾偏、去污、去黑邊等處理,以提高圖片質(zhì)量,有些還需經(jīng)過OCR識(shí)別,轉(zhuǎn)化為WORD、雙層PDF等格式。OCR識(shí)別及雙層PDF制作可通過漢王、泰比(ABBYY)、成者(CZUR)等軟件實(shí)現(xiàn)。為提高加工速度,最好充分利用軟件或程序,并提高軟件操作熟練程度,能高速掃描的盡量高速掃描。檔案數(shù)字化副本可根據(jù)檔號(hào)自動(dòng)向檔案系統(tǒng)數(shù)據(jù)庫掛接。
新時(shí)代,隨著檔案信息化、數(shù)據(jù)化、智慧化建設(shè)的不斷深入,紙質(zhì)檔案數(shù)字化已經(jīng)成為一種常態(tài)化和基礎(chǔ)性工作,為傳統(tǒng)紙質(zhì)檔案的數(shù)據(jù)挖掘、知識(shí)管理等深層次開發(fā)利用帶來便利。檔案數(shù)字化要提高效率、確保質(zhì)量、少走彎路,就應(yīng)明確目標(biāo),做好規(guī)劃,遵循一定的原則;配備相應(yīng)的工作人員,配置必要的軟硬件;熟悉相應(yīng)的法律法規(guī)和技術(shù)規(guī)范,做好檔案材料的前期處理;并根據(jù)自身實(shí)際選擇合適的方式和路徑,積極穩(wěn)妥地向前推進(jìn)。同時(shí),檔案工作者應(yīng)積極利用計(jì)算機(jī)程序、人工智能等時(shí)代先進(jìn)工具為工作賦能,盡快掌握檔案數(shù)字化加工技能,熟練操作流程,力爭自行數(shù)字化檔案,尤其是新增檔案,以適應(yīng)檔案工作時(shí)代發(fā)展需要。