仇偉海 王 靚/天津市檔案館
袁嘉新/上海信聯(lián)信息發(fā)展股份有限公司
OFD作為版式文檔國家標準,在電子檔案管理領域有著重要的應用價值。電子檔案移交接收,是檔案館確保長期保存的電子檔案來源可靠、程序規(guī)范、要素合規(guī)的重要工作環(huán)節(jié)。天津市檔案館從電子檔案移交接收工作入手,探索OFD在電子檔案管理中的應用實踐,取得了階段性的成果。
版式文檔是版面呈現(xiàn)效果固定的電子文檔格式。其具有電子文檔呈現(xiàn)與設備無關,在各種設備上閱讀、打印和印刷時,其版面的呈現(xiàn)結(jié)果都一致的格式特征。這一格式特征,非常適宜電子文件的交換、發(fā)布、存檔。2009年《電子文件管理暫行辦法》提出“應采用符合國家標準的文件存儲格式,確保能夠長期有效可讀”;同年國家檔案局頒布《版式電子文件長期保存格式需求》,將版式文件作為電子檔案長期保存和利用的格式,并提出明確的技術(shù)需求; 2016年10月國家標準化管理委員會發(fā)布國家標準《電子文件存儲與交換格式 版式文檔》(GB/T 33190—2016)。至此,我們有了自己的版式文檔格式國家標準,這對于促進相關產(chǎn)業(yè)的發(fā)展、提升我國電子文件管理的安全性和自主性,具有重要意義。
OFD版式文檔格式采用“容器+文檔”的方式描述和存儲數(shù)據(jù)。容器是一個虛擬存儲系統(tǒng),所有數(shù)據(jù)都存放其中,包括文檔、頁面、大綱等文檔模型和圖形、圖像、字體等,容器提供訪問接口和數(shù)據(jù)壓縮方法,文檔模型采用XML,附加的字體、圖像、音頻、視頻等數(shù)字資源采用二進制格式,使用ZIP壓縮算法進行整體壓縮打包。OFD定義了基于XML和ZIP壓縮的通用版式文檔格式,適用于固定版式電子文件的存儲與交換,在滿足版式文檔核心需求的同時,技術(shù)實現(xiàn)更加精簡,擴展性和可控性更強,體現(xiàn)出以下幾個方面的優(yōu)勢。
第一,自主產(chǎn)權(quán),安全可控。OFD具有完全自主知識產(chǎn)權(quán),具備自主的核心技術(shù),支持國產(chǎn)加密算法,國家對OFD標準具有完全自主的話語權(quán),可以自主修訂和擴展OFD標準。第二,長期可讀,長久保存。OFD使用通用開放壓縮標準 ,其內(nèi)容和配置信息以XML保存,相比PDF、DOC等二進制存儲格式更容易讀取和理解,有助于文件的長期可讀可用。第三,擴展性強,利于推廣。OFD的技術(shù)框架具有很強的可擴展性,可以根據(jù)需要擴充所包含的資源,支持公文語義等特色的行業(yè)應用,有利于在各行業(yè)應用和推廣。
OFD的技術(shù)特點使其在電子檔案管理領域有著巨大的應用價值。作為國家標準版式文檔格式,OFD對于電子檔案管理尤為重要:提供了國內(nèi)各行業(yè)各領域電子文件歸檔保存所需的統(tǒng)一的版式文檔格式標準;OFD不依賴于特定廠商或技術(shù)平臺,標準公開,有助于電子檔案長期可讀可用;OFD作為自主標準,支持國產(chǎn)加密算法,有助于實現(xiàn)自主可控;OFD的多文檔、高壓縮等特性為電子檔案的存儲和利用提供了技術(shù)支撐。OFD可以在電子檔案管理中發(fā)揮如下作用。
一是支持電子檔案元數(shù)據(jù)采集和存儲。OFD具有很強的元數(shù)據(jù)描述能力,可以在文件管理各個階段利用OFD的CustomDatas或Extentions來自定義擴展文檔元數(shù)據(jù),在檔案管理階段可繼承前面各階段采集的元數(shù)據(jù),并根據(jù)檔案管理的需要對元數(shù)據(jù)進行擴展和補充。
二是支持電子檔案信息包封裝和數(shù)據(jù)交換。在電子檔案的數(shù)據(jù)交換中,為維護其完整性一般會采用信息包的方式。OFD作為電子文件存儲和交換格式,采用ZIP壓縮打包,支持以數(shù)字簽名的方式對文檔內(nèi)容進行真實性校驗,可有效支持電子檔案信息包的封裝和數(shù)據(jù)交換。
三是支持電子檔案的長期保存。OFD對于檔案行業(yè)標準《版式電子文件長期保存格式需求》中的長期保存格式需求,如格式開放、不綁定軟硬件、文件自包含、格式自描述、顯示一致性、持續(xù)可解釋、穩(wěn)健、利于存儲、支持技術(shù)認證機制、易于利用等要求具有較高的遵從性,是電子檔案長期保存格式的較好選擇。
四是支持電子檔案的利用。OFD采用的壓縮打包技術(shù),比同內(nèi)容的DOC、PDF等格式文件體積更小,在線閱讀時加載速度更快,支持客戶端不留存副本等安全要求,可以靈活滿足電子檔案利用中的要求。
新修訂檔案法明確要求“電子檔案應當來源可靠、程序規(guī)范、要素合規(guī)”。檔案館接收電子檔案進館,是電子檔案管理中的一個重要環(huán)節(jié)。在接收環(huán)節(jié),“程序規(guī)范”是確保接收進館電子檔案“來源可靠”和“要素合規(guī)”的關鍵。電子檔案是否以及如何遵守規(guī)范的程序要求,可以通過詳細的背景元數(shù)據(jù)和過程元數(shù)據(jù)來記錄和審計。本著這一思路,檔案館工作人員和系統(tǒng)技術(shù)開發(fā)人員共同研究分析,基于OFD的技術(shù)特點形成相應解決方案。
電子檔案移交接收關系到檔案管理權(quán)責的轉(zhuǎn)移,為確保電子檔案在移交接收中的完整性和安全性,通常會對電子檔案的數(shù)據(jù)進行打包封裝。OFD是一種采用ZIP壓縮的容器型的文件格式,具有數(shù)據(jù)打包封裝的能力。如果將OFD作為檔案信息的封裝格式,則可以充分利用OFD的數(shù)據(jù)打包封裝能力,使電子檔案的元數(shù)據(jù)和數(shù)字對象更緊密地結(jié)合,提升電子檔案在移交接收或長期保存中的完整性和安全性;同時,也會存在OFD封裝的檔案信息包相對復雜,其訪問和處理性能尚缺乏驗證等問題。因此,可以針對不同的應用需求,嘗試設計基于OFD的多種封裝結(jié)構(gòu)。第一種是電子檔案OFD封裝結(jié)構(gòu),以OFD來封裝單個電子檔案的元數(shù)據(jù)和數(shù)字對象,在“件”一級將電子檔案的元數(shù)據(jù)和多個數(shù)字對象合并成一個電子檔案OFD文件。第二種是接收過程記錄表單的OFD結(jié)構(gòu),除了記錄表單本身的內(nèi)容外,還基于OFD的信息封裝能力將接收的說明信息和校驗信息作為附件嵌入OFD文件中。利用這兩種OFD封裝結(jié)構(gòu),確保電子檔案在移交接收中的完整性和安全性。
依據(jù)《黨政機關電子公文處理工作辦法》《黨政機關電子公文歸檔規(guī)范》等法規(guī)政策及標準規(guī)范的要求,電子公文在歸檔時“應當去除電子印章的數(shù)字簽名信息,只保留印章圖形”。這樣,歸檔保存的電子公文中原有的基于電子印章的真實性驗證技術(shù)機制將被去除,需要引入其他適合長期保存的真實性驗證技術(shù)機制。檔案館在電子檔案移交接收工作中,結(jié)合OFD對上述需求進行了技術(shù)實踐驗證。一方面,遵照法規(guī)政策和標準規(guī)范的要求,去除了電子檔案的數(shù)字對象中的電子印章校驗,使電子印章圖像化。另一方面,系統(tǒng)對原始移交包中每份電子檔案的內(nèi)容文件等數(shù)字對象文件和XML格式的電子檔案元數(shù)據(jù)文件生成校驗碼,并將校驗碼集中保存到校驗文件中,將校驗文件作為附件保存在移交接收記錄表單的OFD文件中,并進一步封裝進入最終形成的移交信息包,移交接收雙方共同保存移交信息包,這樣就為雙方提供了移交接收過程的電子檔案真實性保障機制。
電子檔案移交接收過程中產(chǎn)生的元數(shù)據(jù)信息是電子檔案元數(shù)據(jù)的重要組成部分,有必要予以捕獲和進行記錄。但是,如果直接將這些元數(shù)據(jù)保存到原始移交包的電子檔案元數(shù)據(jù)XML文件中,則會因為XML文件的內(nèi)容變動而導致該文件的校驗信息失效,使電子檔案的真實性產(chǎn)生瑕疵??梢杂行Ю肙FD的封裝能力,將移交接收過程產(chǎn)生的元數(shù)據(jù)保存在OFD格式的移交接收過程記錄表單中,并進一步將該記錄表單保存到移交信息包中。利用OFD的封裝能力,將移交接收環(huán)節(jié)產(chǎn)生的元數(shù)據(jù)完整記錄下來。這樣可以在捕獲和保存移交接收過程產(chǎn)生的元數(shù)據(jù)的同時,不會破壞原始移交包中原有電子檔案元數(shù)據(jù)XML文件校驗信息的有效性,從而移交單位提交的電子檔案真實性校驗也得以保留。
檔案館在電子檔案移交接收實際工作中,除了從移交單位接收原生的電子文件之外,也會接收到傳統(tǒng)載體紙質(zhì)檔案的數(shù)字化復制件。紙質(zhì)檔案的數(shù)字化復制件通常采用JPG、TIF等光柵圖像格式,也有部分采用由圖像直接生成的單層PDF文件格式。在這些文件格式之中,圖像上的文字內(nèi)容無法直接讀取和檢索。可以結(jié)合采用的專業(yè)級OFD Convertor轉(zhuǎn)換引擎,在OFD轉(zhuǎn)換功能中集成OCR文字識別功能,對圖像進行OCR識別,將圖像中的文字內(nèi)容識別出來,然后將識別出的文字內(nèi)容嵌入OFD文件中,形成識別文字+掃描圖像的雙層內(nèi)容,再加上檔案元數(shù)據(jù)所形成的元數(shù)據(jù)層內(nèi)容,就形成了檔案的三層OFD文件格式。采用三層OFD文件格式的檔案,可以實現(xiàn)檔案元數(shù)據(jù)和檔案數(shù)字對象的緊密結(jié)合而有助于檔案的完整保存,可以精確、直觀地展示檔案的視覺內(nèi)容,有助于檔案的可讀可用,還可以結(jié)合全文檢索引擎進一步實現(xiàn)對檔案內(nèi)容文字和檔案元數(shù)據(jù)項的全文檢索,有助于充分挖掘檔案的信息利用價值。
天津市檔案館主要通過移交數(shù)據(jù)包交換方式進行電子檔案移交接收,先后制定了一系列相關標準規(guī)范,包括《天津市文書類電子文件元數(shù)據(jù)規(guī)范》《天津市文書類電子文件數(shù)據(jù)存儲結(jié)構(gòu)規(guī)范》《文書檔案目錄數(shù)據(jù)庫結(jié)構(gòu)與數(shù)據(jù)交換格式》等,對電子檔案移交接收中的信息組織方式、存儲結(jié)構(gòu)及其基于XML數(shù)據(jù)體描述的規(guī)則和方法等進行了規(guī)定。針對OFD國家標準的應用,我們在國家相關標準規(guī)范的基礎上,對移交接收流程進行了優(yōu)化設計,充分利用OFD文檔自身功能,實現(xiàn)OFD版式格式在電子檔案移交接收流程中的應用。
為簡化整個移交接收流程,規(guī)定了原始移交包以年度為單位,以文件夾形式存儲。原始移交包中要求包含目錄文件的文檔結(jié)構(gòu)描述文件(schema-list.xsd),用于對原始移交包的目錄文件(List.xml)進行校驗,確保包中的檔案目錄數(shù)據(jù)合規(guī);接收系統(tǒng)在原始移交包信息的基礎上自動生成包說明文件(說明文件.txt),并對原始移交包中檔案文件夾下的所有數(shù)字對象逐個生成校驗信息,形成校驗碼文件(校驗碼.txt),存放到原始移交包內(nèi);由接收系統(tǒng)自動形成《電子檔案移交接收登記表》。
《電子檔案移交接收登記表》轉(zhuǎn)換成OFD版式文檔的同時,將移交接收過程相關描述信息(主要是《電子檔案移交接收登記表》中的信息)、“四性檢測”結(jié)果信息,分別轉(zhuǎn)換成XML文檔,存儲到“電子檔案移交接收登記表.OFD”文檔中。該文檔可以達到不依賴特定系統(tǒng)對該批次電子檔案移交接收過程進行自描述的效果。
再由電子檔案接收管理系統(tǒng)提供的OFD格式批量轉(zhuǎn)換功能,對每份檔案對應的文件夾目錄下的所有數(shù)字對象,包括檔案的辦文單、修改稿、定稿、正文等,全部轉(zhuǎn)換合并成一個OFD文件。同時將這份檔案元數(shù)據(jù)的“文件元數(shù)據(jù).XML”也封裝到同一OFD文檔中,并采用檔號對此OFD文件命名,形成“檔號.OFD”文件。這些數(shù)字對象,在“檔號.OFD”文件里不再是獨立的組成部分,而是成了OFD文件內(nèi)Pages元素下的各個頁面。
在后續(xù)的電子檔案移交接收工作實踐中,上述OFD封裝結(jié)構(gòu)性能穩(wěn)定,取得了預期的效果。
完成上述OFD格式轉(zhuǎn)換、封裝后,系統(tǒng)將“檔號.OFD文件”、原始移交包的目錄文件、說明文件、“其他”文件夾下的校驗文件等打包,生成轉(zhuǎn)換移交包。檔案館把原始移交包、轉(zhuǎn)換移交包和包含移交過程信息的“電子檔案移交接收登記表.OFD”打包,形成移交單位和檔案館雙方認可的、包含移交數(shù)據(jù)和移交過程記錄的完整移交信息包(SIP包)。SIP包返還給移交單位并要求保存5年以上。
當前,適用于長期保存的OFD/A標準正在制定之中,對于OFD在電子檔案管理中的應用仍有許多地方需要進一步研究和探討。下一步,我們和相關技術(shù)開發(fā)公司將密切關注OFD/A格式國家標準的制定和發(fā)布,結(jié)合OFD/A格式的特性,進一步探索OFD在電子檔案管理中更多的應用場景和更深入的應用方式。如,基于OFD/A格式的部分簽名和多版本元數(shù)據(jù)特性,實現(xiàn)電子檔案移交接收、長期保存等管理過程元數(shù)據(jù)的多次寫入,同時不影響前面階段的數(shù)據(jù)真實性的驗證。又如,基于OFD/A格式的自包含、自描述和校驗能力,通過獨立的OFD文件實現(xiàn)電子檔案不依賴于特定應用系統(tǒng)的長期保存,滿足電子檔案的真實性、完整性、可用性和安全性要求。