林 空 黃 彥/浙江省檔案館
當(dāng)前,我省各級(jí)各類檔案館正著手推進(jìn)存量檔案數(shù)字化工作。在接收檔案數(shù)字化成果進(jìn)館的過(guò)程中筆者發(fā)現(xiàn),檔案數(shù)字化成果進(jìn)館(本文所指的“進(jìn)館”,特指檔案的數(shù)字化成果進(jìn)入數(shù)字檔案館系統(tǒng))工作的規(guī)范性整體上有待加強(qiáng)。為提升工作的規(guī)范化程度、提高工作效率,檔案數(shù)字化成果移交進(jìn)館時(shí)必須注意若干要點(diǎn)。
這里指的是檔案數(shù)字化工作應(yīng)遵循的標(biāo)準(zhǔn)。以浙江省為例,包括國(guó)家檔案局2015年發(fā)布的《DAT_22-2015歸檔文件整理規(guī)則》、2017年發(fā)布的《DAT_31-2017紙質(zhì)檔案數(shù)字化規(guī)范》,浙江省檔案局2007年發(fā)布的《浙江省省直單位紙質(zhì)檔案數(shù)字化實(shí)施細(xì)則》《浙江省檔案館紙質(zhì)檔案數(shù)字化成果接收暫行辦法》,2011年發(fā)布的《浙江省省直單位文書(shū)檔案目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與交換格式》,2018年發(fā)布的《浙江省省直單位數(shù)字檔案資源接收進(jìn)館與登記備份數(shù)據(jù)包技術(shù)要求》等。進(jìn)館單位或中介服務(wù)企業(yè)在移交數(shù)字化成果前,必須對(duì)照標(biāo)準(zhǔn)認(rèn)真檢查。
《歸檔文件整理規(guī)則》規(guī)定,檔號(hào)的結(jié)構(gòu)宜為:全宗號(hào)-檔案門類代碼·年度-保管期限-機(jī)構(gòu)(問(wèn)題)代碼-件號(hào),上、下位代碼之間用-連接,同一級(jí)代碼之間用·隔開(kāi)。如“Z109-WS·2011-Y-BGS-0001”,其中“·”為間隔號(hào)在制表鍵(Tab)上方,在中文輸入法狀態(tài)下打出;保管期限分為永久、定期30 年、定期10 年,分別以代碼“Y”“D30”“D10”標(biāo)識(shí);機(jī)構(gòu)(問(wèn)題)代碼采用3位漢語(yǔ)拼音字母或阿拉伯?dāng)?shù)字標(biāo)識(shí);歸檔文件未按照機(jī)構(gòu)(問(wèn)題)分類的,應(yīng)省略機(jī)構(gòu)(問(wèn)題)代碼。需要特別注意的是,如檔案是2015年之前整理、檔號(hào)命名按照《浙江省省直單位文書(shū)檔案目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與交換格式》擬制的,其組織機(jī)構(gòu)或問(wèn)題用2位字母標(biāo)識(shí),可以用簡(jiǎn)稱中的漢語(yǔ)拼音第一個(gè)字母表示;如無(wú)該項(xiàng)內(nèi)容,則用“ZZ”表示。
《紙質(zhì)檔案數(shù)字化規(guī)范》規(guī)定,紙質(zhì)檔案數(shù)字圖像長(zhǎng)期保存格式宜為TIFF、JPEG或JPEG2000等通用格式;《浙江省省直單位數(shù)字檔案資源接收進(jìn)館與登記備份數(shù)據(jù)包技術(shù)要求》規(guī)定,移交的數(shù)字化成果應(yīng)包含單頁(yè)TIF原圖與多頁(yè)P(yáng)DF。在上述兩份文件中出現(xiàn)的TIF與TIFF本質(zhì)上為同一概念,都是指標(biāo)簽圖像文件格式(Tag Image File Format, TIFF),只是曾經(jīng)DOS下擴(kuò)展名長(zhǎng)度限制為3(文件名長(zhǎng)度限制為8,所謂8.3格式文件名),所以才出現(xiàn)了TIF這樣的簡(jiǎn)稱,因此對(duì)這兩種后綴名的文件都應(yīng)予以支持。
《浙江省省直單位數(shù)字檔案資源接收進(jìn)館與登記備份數(shù)據(jù)包技術(shù)要求》規(guī)定,傳統(tǒng)組卷方式檔案數(shù)字化成果數(shù)據(jù)包命名規(guī)則為:全宗號(hào)-目錄號(hào)-數(shù)據(jù)類型-報(bào)送年度-批次號(hào)-數(shù)據(jù)包流水號(hào).zip。一文一件方式檔案數(shù)字化成果數(shù)據(jù)包命名規(guī)則為:全宗號(hào)-一文一件方式(YWYJ)-數(shù)據(jù)類型(001)-報(bào)送年度-批次號(hào)-數(shù)據(jù)包流水號(hào).zip。專業(yè)檔案等數(shù)字化成果數(shù)據(jù)包命名規(guī)則為:省檔案館已賦予目錄號(hào)的,按照目錄號(hào)方式(傳統(tǒng)組卷)編制檔案數(shù)據(jù)包;省檔案館未賦予目錄號(hào)的,可在全宗號(hào)下自行編制不重復(fù)的4位拼音首字母組成的專業(yè)檔案分類號(hào);也可以按年編制,即全宗號(hào)-專業(yè)檔案-年度(檔案產(chǎn)生年度)-案卷號(hào)-張頁(yè)(件)號(hào)。
Windows系統(tǒng)中主流的幾種壓縮文件格式為ZIP、RAR、7Z、CAB等,根據(jù)《浙江省省直單位數(shù)字檔案資源接收進(jìn)館與登記備份數(shù)據(jù)包技術(shù)要求》規(guī)定,我們推薦采用ZIP格式進(jìn)行壓縮。
《檔案交接文據(jù)》是在變更檔案保管者或所有者的過(guò)程中形成的具有法律效力的文件。浙江省檔案館根據(jù)實(shí)體檔案與數(shù)字化成果的差異重新編制了《檔案數(shù)據(jù)交接文據(jù)》,要求在實(shí)際操作過(guò)程中務(wù)必注意“四個(gè)分開(kāi)”,即帶密級(jí)與不帶密級(jí)的數(shù)據(jù)分開(kāi)填寫、交接文據(jù)應(yīng)以批次為單位分開(kāi)填寫、只移交目錄與目錄含全文的數(shù)據(jù)應(yīng)分開(kāi)填寫并注明、已登記備份的數(shù)據(jù)與未登記備份的數(shù)據(jù)應(yīng)分開(kāi)填寫并注明。另外還要嚴(yán)格檢查“移交清單名稱”一欄填寫是否規(guī)范。
移交的數(shù)字化成果的條目字段命名往往不規(guī)范,存在以下問(wèn)題:一是“題名”字段命名錯(cuò)誤,《案卷級(jí)目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)一覽表》(下稱表1)中該字段為“題名(或TM)”,而《文件級(jí)目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)Ⅰ一覽表》(下稱表2)與《文件級(jí)目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)Ⅱ一覽表》(下稱表3)中該字段為“正題名(或ZTM)”;二是“文件起始時(shí)間(或WQS)”字段與“文件終止時(shí)間(或WZS)”字段的長(zhǎng)度應(yīng)為6個(gè)字節(jié),精確到年月即可,但長(zhǎng)度設(shè)置為8個(gè)字節(jié)的情況較為常見(jiàn);三是表1中所設(shè)置的必選著錄項(xiàng),每一項(xiàng)都有提示本卷檔案性質(zhì)的功能,不可為空,但為空的情況較為常見(jiàn);四是表1與表2中“館編案卷號(hào)(或GBAJH)”字段為相應(yīng)的檔案館編制的案卷排列的順序號(hào),移交單位不應(yīng)進(jìn)行該字段的著錄,而進(jìn)行著錄的情況較為常見(jiàn);五是表2與表3中的“全文標(biāo)識(shí)(或QWBS)”字段關(guān)系到能否訪問(wèn)全文,所以應(yīng)作為必選著錄項(xiàng),但很多時(shí)候沒(méi)有成為必選著錄項(xiàng)。檔案館在接收時(shí)必須嚴(yán)格檢查是否存在以上這些問(wèn)題。
該項(xiàng)檢查依托軟件進(jìn)行,主要檢查TIF原圖是否損壞、TIF原圖的分辨率是否符合規(guī)范、是否為雙層PDF文件等,并且對(duì)照DBF文件檢查TIF文件夾(或PDF文件)命名是否與檔號(hào)一致,TIF文件夾內(nèi)單頁(yè)TIF文件命名是否從00000001.tif起。
《浙江省省直單位數(shù)字檔案資源接收進(jìn)館與登記備份數(shù)據(jù)包技術(shù)要求》規(guī)定,所移交的數(shù)據(jù)資源應(yīng)分為四個(gè)層級(jí):第一層級(jí)為存儲(chǔ)介質(zhì)底層也可為文件夾,如為文件夾建議與第二層級(jí)的移交清單同名;第二層級(jí)包含移交清單與若干ZIP壓縮包;第三層級(jí)為包內(nèi)文件包含若干DBF文件、若干文件夾及與文件夾數(shù)量相同的PDF文件;第四層級(jí)為以流水號(hào)命名的單頁(yè)TIF文件。接收數(shù)字檔案資源數(shù)據(jù)包時(shí),應(yīng)根據(jù)上述要求開(kāi)展嚴(yán)格檢查。
在紙質(zhì)檔案數(shù)字化加工過(guò)程中,非密數(shù)據(jù)與密級(jí)數(shù)據(jù)必須分開(kāi)處理。首先在條目字段表的“題名”或“正題名”字段篩選帶“密”字的項(xiàng),人工識(shí)別確定是否為密級(jí)數(shù)據(jù);其次使用軟件OCR識(shí)別技術(shù)對(duì)所有TIF原圖進(jìn)行全檢,自動(dòng)篩查帶“密”字樣的原圖;最后人工抽檢部分原圖,確保非密數(shù)據(jù)與密級(jí)數(shù)據(jù)分開(kāi)管理。
檔案數(shù)據(jù)包的來(lái)源及檔案類型等在移交清單中記載的信息,會(huì)在出庫(kù)時(shí)隨數(shù)據(jù)包一并輸入數(shù)字檔案館系統(tǒng)。解包成功的數(shù)據(jù)包需手動(dòng)匹配檔案類型,若匹配成功,根據(jù)對(duì)應(yīng)的檔案類型庫(kù)中預(yù)設(shè)的類型名稱,選擇準(zhǔn)確對(duì)應(yīng)的門類,完成檔案類型修改;若匹配失敗,則需根據(jù)數(shù)據(jù)來(lái)源的實(shí)際情況和數(shù)字檔案館系統(tǒng)支持的類型來(lái)增加分類;若部分專業(yè)檔案存在需自行編制分類的情況,則要按自身實(shí)際情況新增對(duì)應(yīng)分類。
若進(jìn)館單位的數(shù)據(jù)字段結(jié)構(gòu)均按照《浙江省省直單位文書(shū)檔案目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與交換格式》的規(guī)范著錄,數(shù)據(jù)源字段即可自動(dòng)與可選的目標(biāo)庫(kù)字段綁定匹配;若匹配不完整則需人工進(jìn)行干預(yù),針對(duì)可選數(shù)據(jù)源字段的實(shí)際情況進(jìn)行靈活匹配。針對(duì)專業(yè)檔案的特點(diǎn),移交單位在提交數(shù)據(jù)時(shí),必須同時(shí)提供完整且準(zhǔn)確的專業(yè)檔案字段結(jié)構(gòu)表。
復(fù)檢的主要手段包括為空檢測(cè)、重復(fù)檢測(cè)、連續(xù)檢測(cè)等,其中為空檢測(cè)主要用于檢測(cè)檔號(hào)、題名、責(zé)任者等關(guān)鍵字段;重復(fù)檢測(cè)用于查找重復(fù)數(shù)據(jù),支持跨檔案類型和跨庫(kù)雙重檢測(cè);連續(xù)檢測(cè)用于檢查目錄號(hào)、案卷號(hào)等有連續(xù)編號(hào)需求的模塊。復(fù)檢工作完成后,檔案數(shù)字化成果資源即可作為合格數(shù)據(jù)保存在數(shù)字檔案館系統(tǒng)中,提供利用。