国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國外電子文件格式登記與管控項目研究

2020-12-07 17:32張照余蘇州大學社會學院
浙江檔案 2020年5期
關(guān)鍵詞:軟件數(shù)字系統(tǒng)

周 祺 張照余/蘇州大學社會學院

近年來,國內(nèi)檔案界對于檔案數(shù)據(jù)安全與長久保存策略的研究與實踐集中于元數(shù)據(jù)的采集和數(shù)據(jù)存儲備份兩個方面。然而,隨著讀取信息的軟、硬件環(huán)境的不斷迭代更新以及新型數(shù)據(jù)結(jié)構(gòu)的涌現(xiàn),存儲于介質(zhì)中的原始檔案數(shù)據(jù)將面臨無法被讀取的風險。解讀信息的應用軟件及其對應的文件本格式成為影響文件長期可讀的關(guān)鍵因素。全球檔案界對文件格式的關(guān)注始于21世紀初,很多國家的檔案機構(gòu)已開始限定歸檔文件的格式。文件格式管控逐漸成為信息長期傳輸、存儲與利用關(guān)注的焦點。2007年起,西方國家提出應采取收集與分析文件格式信息并長期追蹤格式變化的方法來保證檔案數(shù)據(jù)的長期可讀,并且開發(fā)出文件格式登記數(shù)據(jù)庫、格式識別軟件系統(tǒng)等。本文遴選出全球范圍內(nèi)8個典型的文件格式項目加以綜述,以期為我國檔案界對文件格式的管控研究提供經(jīng)驗。

在進行問題分析之前,需要明確和統(tǒng)一對“電子文件格式”的認知。本文綜合OAIS參考模型[1]、英國國家檔案館、全球數(shù)字格式注冊中心[2]對“格式”的定義,認為格式的定義有廣義和狹義之分。廣義的“文件格式”是傳遞人類可識別的“表達信息”與機器可識別的“記錄信息”之間的描述,包括信息存儲介質(zhì)、信息傳播語言;狹義的文件格式指電子文件媒體的結(jié)構(gòu)與編碼方式,可以分為文件包裝器和編解碼器。

1 國外檔案文件格式登記與管控項目

1.1 Archivematica

Archivematica是COPPUL(Council of Prairie and Pacific University Libraries,系加拿大西部4個省的22所大學圖書館組成的聯(lián)合體)開發(fā)的一個免費、開源的數(shù)字保存系統(tǒng)。它以標準的、可長期訪問的數(shù)字集合為管控對象,目標是為技術(shù)和財政能力有限的檔案管理員或圖書館員提供工具、方法等,以便更好地保存數(shù)字信息。由于COPPUL在此之前的項目缺少數(shù)據(jù)保存的部分特征與功能,如格式轉(zhuǎn)換、保存元數(shù)據(jù)等,該系統(tǒng)很好地發(fā)揮了這些作用并彌補了數(shù)據(jù)難以長期保存的短板,同時也契合OAIS功能模型從信息“輸入”到“訪問”的架構(gòu)。此外,項目人員參考系統(tǒng)運行過程中的經(jīng)驗及用戶反饋,在“數(shù)字對象”進入“提交信息包(SIP)”這一過程的功能模塊擴展到了OAIS模型之外[3]。

FPR(Format Policy Registry)是Archivematica系統(tǒng)重要的格式策略登記數(shù)據(jù)庫。格式策略規(guī)定了需要應用于特定文件格式的相關(guān)操作、工具和設(shè)置(如轉(zhuǎn)換為保存格式或轉(zhuǎn)換為訪問格式)。隨著地區(qū)標準、實踐和工具的發(fā)展,格式策略也將發(fā)生變化[4]。在登記新的格式信息入庫時,F(xiàn)PR推薦使用“格式說明”“格式版本”“PUID”“訪問格式和保存格式”等字段類型作為格式信息元數(shù)據(jù)。在FPR中,每個“格式記錄”的是一個或多個相關(guān)的文件格式,而每個“格式版本”記錄著一個特定的文件格式。如,圖像格式GIF的“格式記錄”由GIF 1987 A和GIF 1989 A兩個“格式版本”組成;“PUID”是英國國家檔案館格式登記系統(tǒng)的唯一識別符號;“訪問格式”和“保存格式”可明確此格式是否適合作為最終用戶的訪問格式和保存格式。

1.2 PRONOM

PRONOM是TNA(英國國家檔案館)早期針對電子文件格式問題開展的項目,它也是一項格式技術(shù)登記服務平臺,描述了數(shù)字對象的技術(shù)依賴性,以支持文件格式的長期保存。這些技術(shù)依賴性與OAIS參考模型表示信息的概念相對應,包括對對象進行編碼的格式、對這些對象執(zhí)行操作(如創(chuàng)建、渲染和遷移)可能需要的軟件工具以及這些工具對系統(tǒng)和硬件的依賴性[5]。此外PRONOM不僅是一個技術(shù)信息的數(shù)據(jù)庫,還包括一系列支持數(shù)字保存功能的工具和服務,如保存風險評估、遷移路徑規(guī)劃、對象識別和驗證以及元數(shù)據(jù)提取。PRROOM已經(jīng)經(jīng)歷了多個開發(fā)階段,目前的版本是PRONOM 6.2。

1.2.1 PUID

PUID(Persistent Unique Identifier,持久唯一標識符)為PRONOM登記系統(tǒng)中記錄的信息單元提供持久、唯一且明確的標識符。該標識符對于數(shù)字對象格式的交換和管理至關(guān)重要[6]。開發(fā)PUID方案是為了記錄和區(qū)分不同格式以及同一種格式不同版本的身份標識,該方案是可擴展的,在未來將擴展到包括其他格式登記系統(tǒng)中的各類記錄信息,如壓縮方法、字符編碼方案和操作系統(tǒng)。PUID結(jié)構(gòu)和編碼限于表示具有技術(shù)規(guī)范的正式格式,而現(xiàn)實中很多文件格式?jīng)]有正式的規(guī)范,或可能與軟件無關(guān),或是與特定軟件產(chǎn)品一起開發(fā)的,因此PUID的缺點在于其粒度僅限于將一種格式與另一種格式區(qū)分開來,而不能體現(xiàn)某種格式的固有功能。

1.2.2 DROID

DROID(Digital Record Object Identification,格式識別軟件)是TNA開發(fā)的一種支持PUID文件格式識別的工具軟件,目前已在世界各地的文化記憶機構(gòu)、政府部門等得到廣泛應用,并嵌入到多種商業(yè)和開源數(shù)字保存產(chǎn)品中[7]。DROID的核心功能是準確識別文件格式,即使文件擴展名錯誤或丟失也能進行準確識別。進行識別的范圍從廣義類型到格式版本級別,如“Adobe PDF v.1.6—便攜式文檔格式”。所有有關(guān)文件格式的信息(包括DROID所使用的識別簽名)都保存在PRONOM格式登記系統(tǒng)中。DROID目前可識別1400多種文件格式,并且這個數(shù)字一直在增長。此外DROID提供API接口,支持與ERMS(電子文件管理系統(tǒng))或數(shù)據(jù)庫進行集成,識別結(jié)果通過XML文件形式返回。

1.3 Format Profile

Format Profile(格式概覽)是NARA(美國國家檔案與文件署)基于數(shù)字保存計劃(Digital Preservation Program)提出的。2018年NARA重新修訂《永久電子文件移交格式指南》(以下簡稱《指南》),這份指南充分反映了各機構(gòu)在創(chuàng)建和使用電子文件方面不斷發(fā)生著的格式變化過程[8]。NARA認為,格式是數(shù)據(jù)長期保存風險評估和保護規(guī)劃的重要檢測指標,因此應定期對數(shù)字檔案資源格式進行測評,確定館藏數(shù)字資源格式風險等級。等級包括“即將丟失信息的格式”“高危格式”“中危格式”“低危格式”“無風險格式”,以確認哪些資源缺少長期保存措施或者需要更新長期保存策略,哪些保存策略需要優(yōu)先選擇和實施等。目前NARA已檢測超過16種文件類型中350個格式的變化。

1.3.1 Collection Profile(館藏概覽)

為更好地理解風險,NARA創(chuàng)建了Collection Profile(館藏概覽)。它是一個記錄歸檔要求及保管目標的工具,為擬定“保存計劃”而提供關(guān)鍵信息,以便采取可量化的方案來評估文件格式的可持續(xù)性和電子檔案長期保存問題。電子文件保管部門還與系統(tǒng)所有者、IT部門合作,統(tǒng)計所有電子文件系統(tǒng)的文件格式,最終明確NARA館藏格式種類與數(shù)量。

1.3.2 Risk And Prioritization Matrix(風險和優(yōu)先級矩陣)

2014年,NARA創(chuàng)建了一個量化的移交格式適用性矩陣,即Risk And Prioritization Matrix(風險和優(yōu)先級矩陣),其中包括了37個關(guān)于可能影響格式可持續(xù)性的風險數(shù)據(jù)點,即公開程度、采用程度/可行性、透明度、自描述、外部依賴性、許可和專利、使用加密/權(quán)限管理等,每個數(shù)據(jù)點和類別的權(quán)重各不相同。該矩陣幫助《指南》的編制團隊確定并排列了永久電子文件移交至NARA的“首選”或“可接受”格式。在此基礎(chǔ)上,團隊成員可根據(jù)數(shù)據(jù)點對格式風險的影響程度來調(diào)整權(quán)重,如格式對軟硬件的需求、格式轉(zhuǎn)換損失等。這一概念性認識已被應用到《指南》中的所有格式以及館藏中的70多種格式。由此確定了2種高風險、26種中等風險和42種低風險格式,較為熟悉的有:高風險圖像格式RAW及中風險文本格式Microsoft Word Office等。

在完成以上驗證分析后,NARA借鑒模擬信息保存中常用的“需要—使用—價值”矩陣模型,并進一步將其調(diào)整為“使用需求—流行度—可行性”三個維度?!笆褂眯枨蟆敝革L險矩陣中確定的風險值,“流行度”由文件形成機構(gòu)創(chuàng)建并移交到NARA的格式流行來定義,“可執(zhí)行性”系NARA當前格式轉(zhuǎn)換的能力或轉(zhuǎn)換工具的可獲取性。該矩陣模型工具從2018年夏季開始直至今日仍在持續(xù)使用,這種審查館藏剩余格式的方法為“保存計劃”的風險和優(yōu)先順序勾畫出一個更完整、切實的圖景。

1.3.3 ERA2.0(電子文件檔案系統(tǒng)2.0版本)

ERA是NARA基于OAIS模型開發(fā)的專門用來接收、管理、保存和利用美國聯(lián)邦政府永久性電子文件的綜合數(shù)字檔案館系統(tǒng)。2018年8月,ERA2.0核心功能模塊上線并投入使用。NARA對該版本的原始保存庫進行全面更新,并且嵌入格式風險評估的功能模塊,使其能夠報告和監(jiān)控所有館藏數(shù)據(jù),甚至可以提供格式風險和格式遷移計劃方面的部分文檔[9]。

1.4 Sustainability of Digital Formats(數(shù)字格式可持久性)

該項目由美國國會圖書館(LOC)建立,它曾與GDFR和JHOVE協(xié)同合作開發(fā)文件格式識別編譯器。項目目的包括:制定有關(guān)數(shù)字內(nèi)容格式的戰(zhàn)略規(guī)劃,確保國會圖書館能夠長期保存數(shù)字內(nèi)容;提供關(guān)于當前和新出現(xiàn)格式的信息清單,包括確定所需工具和詳細文件,確保國會圖書館能夠管理這些按照格式要求創(chuàng)建或接收的內(nèi)容,以及識別并描述有希望實現(xiàn)長期可持續(xù)發(fā)展的格式;找出并描述存在風險的格式,并制定策略來維持它們所包含的內(nèi)容[10]。

L O C 將“文件擴展名”“因特網(wǎng)媒體類型(MIME)”“格式版本”“特定功能格式實例”等字段作為元數(shù)據(jù)并做了具體文字說明和透徹分析。其中“特定功能格式實例”字段指對可持續(xù)發(fā)展具有重要意義的格式,如從網(wǎng)絡播放器下載的音頻文件格式受到版權(quán)保護,其專有格式可以防止用戶非法利用[11]。

與數(shù)字格式可持久性項目配套的基礎(chǔ)設(shè)施是“數(shù)字格式信息網(wǎng)”(http://www.digitalpreservation.gov/formats/)。該網(wǎng)站于2004年首次公布,它提供詳細的格式描述文檔或提供有關(guān)數(shù)字內(nèi)容格式的信息,并定期增加擴展和更新資源并深入分析與文件格式技術(shù)層面的問題。

1.5 PREFORMA

PREFORMA(Preservation Format for culture information/e-archives,歐盟文化信息/電子檔案保存格式項目)項目由歐盟委員會資助,自2014年1月啟動,為期48個月。PREFORMA項目總體意圖是研究影響電子文件標準執(zhí)行質(zhì)量的關(guān)鍵因素,以便與相關(guān)群體圍繞開發(fā)的工具建立長期可持續(xù)的保管生態(tài)系統(tǒng),使信息機構(gòu)可以完全提取和控制要收錄文件的格式信息[12]。項目規(guī)定了媒體的類型和標準,對圖、文、聲、像四類文件格式規(guī)定了需要檢查的功能和所屬的國際標準,并開發(fā)了對應的“一致性檢查器”開源軟件,最大程度地降低失去數(shù)字資源的控制風險,采用這種開源軟件的用戶都有權(quán)自由閱讀、使用、改進和重新分配這些軟件的源代碼。

1.5.1 veraPDF

veraPDF是專門用于PDF/A驗證的開源軟件,它提供了評估用于備份存檔PDF格式的權(quán)威方法。veraPDF還可生成權(quán)威的測試文件集,并將開發(fā)其他檢查器及元數(shù)據(jù)修復軟件,目前最新產(chǎn)品是針對PDF/A-1、PDF/A-2和PDF/A-3格式的行業(yè)支持的一致性檢查軟件。另外veraPDF鼓勵世界各地的文檔軟件開發(fā)人員保持其PDF產(chǎn)品與PDF/A格式一致,并在整個行業(yè)的專家委員會監(jiān)督下開發(fā)專用驗證軟件。

《綠野仙蹤》的創(chuàng)作較明代小說帶有更加強烈的自寓色彩,作者李百川經(jīng)歷了從富家子弟到“疊遭變故”的失落,遭遇了累歲破產(chǎn)又為人所騙的事故。在看透了時態(tài)炎涼之后,他聚散縈懷,思想激蕩澎湃,決定著書自娛。作品中的人物部分是作者的理想和想象,部分是自身的寫照和化身,故事情節(jié)表面看呼風喚雨,荒誕不經(jīng),實則時刻滲透著社會現(xiàn)實?!毒G野仙蹤》繼承了明代文人獨立創(chuàng)作小說的傳統(tǒng),在創(chuàng)作意識上推動了自寓性小說的發(fā)展,在許多層面超越了前人的創(chuàng)作,我們可以通過小說前面的“自序”略窺一斑。

1.5.2 DPF Manager

DPF Manager是一個開源模塊下的TIFF一致性檢查器。開發(fā)這一軟件的目的在于幫助檔案管理員和數(shù)字內(nèi)容制作者確保TIFF格式文件能長期保存,并能夠自動提出改進建議并糾正保存問題。開發(fā)團隊擁有數(shù)十年的圖像格式和數(shù)字保存經(jīng)驗,獲得了60多家存儲機構(gòu)的支持,起草了專門為靜止圖像長期保存而設(shè)計的新ISO標準提案,即TIFF/A。

1.5.3 Media Conch

Media Conch是由Media Area團隊開發(fā)的保存級視聽文件一致性檢查器,它由“實現(xiàn)檢查器”“策略檢查器”“報告程序和修復程序”組成。Media Conch可通過命令行、圖形用戶界面或基于Web界面使用,其功能是集成現(xiàn)有的歸檔處理基礎(chǔ)架構(gòu)作為微服務,對本地不規(guī)則的視頻文件做詳細檢查,或者在分布式處理系統(tǒng)中檢查基于服務器的批處理級文件。此外,Media Area團隊還致力于進一步推動Matroska和FFV1格式的標準化。

1.6 Wikipedia文件格式項目(Just Solve the File Format Problem)

這是美國維基百科公司的文件格式保護項目,目的在于創(chuàng)建一個不屬于任何特定組織權(quán)限的通用空間,并允許行業(yè)內(nèi)外群體或個人跟蹤并提供文件格式的分類體系。它依賴Wikipedia龐大的網(wǎng)絡資源及其DBpedia結(jié)構(gòu)化獲取工具,通過大批志愿者把不同的文件格式信息條目化地放在一個地方,形成開源的格式獲取工具,便于有信息獲取需求用戶的參考。項目負責人Jason Scott認為,目前檔案館和圖書館負責的文件格式項目傾向于處理確定的文件格式且文件數(shù)據(jù)庫難以共享[13]。因此,Wiki的項目特點是能提供更廣泛的文件格式信息。哈佛圖書館軟件工程師Gary McGath對該項目評價道:“盡管格式的質(zhì)量、完整性和可靠性各不相同,但在格式信息的廣泛性方面,它可能是一個有價值的資源?!盵14]項目除了數(shù)據(jù)庫格式種類多、數(shù)量大之外,格式信息的收集來源也非常廣泛。它幾乎遍歷了所有全球有關(guān)文件格式的項目網(wǎng)站,實時了解其項目發(fā)展成果及進展,同時整合優(yōu)勢與不足,最終共享研究成果。

1.7 Focus

Focus是馬里蘭大學高級計算機研究所(UMIACS)在DIGARCH計劃研究項目中的組成部分,它是一個用于呈現(xiàn)、編輯、轉(zhuǎn)換和驗證已有格式的軟件工具。該系統(tǒng)包含了一些最常見的格式和應用程序,并提供了基于JHOVE的格式識別服務[15]。項目認為,確定某個文件屬于哪種格式不是一件容易的事,雖然文件的擴展名(如“.doc”、“.pdf”或“.xls”)可以很好地提示文件的實際格式,但有時一個文件的擴展名可能較少,甚至錯誤或根本沒有擴展名。格式識別除了擴展名還需要解析整個文件,如有必要還要進行格式轉(zhuǎn)換。

1.7.1 Fider

1.7.2 GFR

GFR(Global Format Registry全局數(shù)字格式登記表)是文件格式和應用程序信息的主要存儲庫。由于GFR主要用于查詢而不非更新內(nèi)部數(shù)據(jù),因此項目選擇輕量級目錄訪問協(xié)議(LDAP),并使用OpenLDAP作為程序的服務器。

1.7.3 Focus客戶端

Focus 客戶端(Format Registry Client)是一個獨立的LDAP客戶端應用程序,用于獲取有關(guān)給定文件的格式和應用程序的信息。用戶通過該客戶端將想要查詢的文件上傳,F(xiàn)ider格式識別系統(tǒng)首先初步猜測該文件的格式。接著由GFR數(shù)據(jù)庫查詢上一步猜測格式對應的格式檢查器地址,格式檢查器會對文件進行詳細的對比校驗,如果一致則確認格式并返回給Focus客戶端。

1.8 FILExt

FILExt是一個文件擴展名和與格式有關(guān)程序的數(shù)據(jù)庫,致力于幫助用戶識別、訪問、打開、查看或轉(zhuǎn)換未知文件,由美國最著名的軟件程序員Tom Simondi創(chuàng)立于20世紀90年代,多年來已經(jīng)幫助數(shù)百萬用戶確定和打開未知文件,同時也被世界各地的軟件專家用作為件擴展名的信息來源[16],《 個人電腦》雜志(PC Magazine)還將其收錄進“100個未發(fā)現(xiàn)的最佳網(wǎng)站”。FILExt的主要功能是在線文件格式分析(https://filext.com/online-file-viewer.html),可將任意格式文件上傳至網(wǎng)頁查看并分析該文件格式信息,同時提供能打開此類格式的相關(guān)軟件,且保證用戶上傳文件的私密性與安全性。另外所有文件擴展名信息由系統(tǒng)用戶通過filext_filetype.bat軟件上傳。

FILExt認為,文件格式可以從三個特征來確定:一是根據(jù)文件的擴展名初步判斷。二是根據(jù)檔案或文件簽名判斷,即用一定的軟件工具(如EditPad Pro)將文件轉(zhuǎn)換為二進制文件查看文件的編碼方式以及“關(guān)鍵代碼(Magic Number)”,可以發(fā)現(xiàn)有一些用于各種常見文件類型的標準指示符,例如若代碼中有前兩個字符是“BM”,則文件可能是.bmp位圖圖像。三是根據(jù)文件MIME型元數(shù)據(jù)類型判斷。

2 項目評價

以上8個項目都是以保護電子文件長期存取為基本出發(fā)點,但各個項目的具體方法與研究深度有所不同。幾乎所有項目都涉及建立格式登記庫、開發(fā)格式識別軟件等,但是具體的項目策略及系統(tǒng)設(shè)計又有許多不同。

2.1 項目規(guī)劃

項目開展的規(guī)劃與所屬服務性質(zhì)有關(guān)。其中,Archivematica、PRONOM、NARA Format Profile、Sustainability of Digital Formats、PREFORMA是從國家記憶保存角度開展的項目,這些項目規(guī)劃有共通之處。首先,項目大多依照OAIS參考模型來設(shè)計數(shù)據(jù)庫系統(tǒng)和其他軟件工具。其次,對登記的歸檔文件格式范圍做了較為明確的規(guī)定,比較典型的是NARA提出并更新《永久電子文件移交格式指南》、PREFORMA項目推薦歸檔或備份的文件使用開放且有國際標準的格式。第三,格式范圍具有有限性的特征,如PRONOM項目賦予登記格式唯一的標識,并推測該格式的壽命以及是否需要進行格式遷移。

而Wikipedia、Focus、FILExt則是從網(wǎng)絡或廣義的信息服務角度開展的項目,格式管控項目規(guī)劃較為廣泛且各有特點。如Wikipedia盡可能全面收集和反映更多格式的變化情況;Focus項目有著較為清晰的文件格式識別流程,針對格式信息服務有專門的客戶端應用程序;FILExt可幫助用戶確定與打開未知文件格式,并推薦轉(zhuǎn)換格式的軟件工具。

2.2 登記系統(tǒng)設(shè)計

以上項目中與格式管控功能有關(guān)的系統(tǒng)有:格式信息數(shù)據(jù)庫、格式識別工具、格式檢查器等。從服務架構(gòu)角度看,以上項目格式信息數(shù)據(jù)庫多采用B/S的訪問服務,通過網(wǎng)頁上傳和查詢格式信息。另外,項目的格式識別工具都有相應的客戶端可供用戶下載,如DROID下載后可在Java環(huán)境下使用,歐盟的三個標準格式檢查器均支持常見的操作系統(tǒng)。

從功能模塊的應用角度看,功能越全面越強大,系統(tǒng)發(fā)揮的作用也相應越大。有些項目提供的格式服務功能較為單一,如Wikipedia僅提供格式概覽與最新格式信息發(fā)現(xiàn), PREFORMA項目僅提供三種格式的標準檢查功能;FILExt提供格式識別及支持軟件信息功能。此外一些項目將格式管控系統(tǒng)納入自身電子數(shù)據(jù)管理系統(tǒng)中,如ERA2.0系統(tǒng)中嵌入了格式風險評估功能模塊,F(xiàn)PR是Archivematica系統(tǒng)的一個重要子系統(tǒng)等。比起單一的格式登記系統(tǒng)或工具,被嵌入的功能模塊有了更大的被頻繁使用的可能。

從系統(tǒng)收錄信息數(shù)量和信息粒度角度看,數(shù)量和粒度分別代表了格式信息的廣度和深度,數(shù)量越多、粒度越細則代表信息的利用價值越大。據(jù)筆者統(tǒng)計,以上項目中登記系統(tǒng)格式信息收錄:格式名稱、格式版本、格式代碼、格式標準、唯一識別符、特定功能格式實例、上下級格式名稱、支持軟件等描述或識別字段。字段越多說明描述的格式信息完整性更強。以上Wikipedia、FILExt所收錄的格式數(shù)量相較其他項目多但粒度相對較大,LOC數(shù)字格式可持續(xù)性項目、PRONOM系統(tǒng)等收錄的格式數(shù)量較小但信息粒度較細。

從源代碼開放程度看,開源系統(tǒng)必將贏得更好的包容和發(fā)展。如Archivematica、DROID、PREFORMA標準格式檢查器等都是開源系統(tǒng),為以后格式問題的解決提供幫助與參考。

3 若干啟示

格式登記與管控并非簡單的工作,不僅涉及軟件系統(tǒng)整體架構(gòu)的設(shè)計,還需要根據(jù)系統(tǒng)服務功能考慮需錄入文件格式數(shù)量及軟件信息的粒度。目前國內(nèi)還沒有檔案格式登記與管控項目,但格式終究是影響電子文件可持續(xù)長期保存的關(guān)鍵因素之一,應得到重視。筆者認為,規(guī)劃我國電子文件格式登記與管控系統(tǒng)時,可從以下幾方面入手。

首先,在系統(tǒng)數(shù)據(jù)來源方面,建設(shè)初期可根據(jù)館藏格式占比情況,從常用的檔案類型和市面流行格式開始設(shè)定歸檔文件格式范圍,將歷史與現(xiàn)存的格式信息及相應軟件信息及元數(shù)據(jù)盡可能多地錄入數(shù)據(jù)庫,中后期登記更多文件格式信息。

其次,在系統(tǒng)開發(fā)方面,數(shù)據(jù)庫的設(shè)計要規(guī)劃好數(shù)據(jù)粒度大小以及元數(shù)據(jù)項,也可采用其他項目系統(tǒng)的開源代碼。此外還可以發(fā)揮系統(tǒng)用戶的作用,如允許用戶上傳文件進行格式分析并與系統(tǒng)已有格式進行匹配,若存在相同格式,則提供格式相關(guān)信息及其可識別該格式的軟件服務;若不存在則允許用戶新增格式條目,由系統(tǒng)管理員負責對數(shù)據(jù)的審核與數(shù)據(jù)庫的更新。這樣能使整個系統(tǒng)數(shù)據(jù)庫保持動態(tài)與活力并不斷拓展文件格式的深度與廣度,從而提供更為廣泛的文件格式服務。

最后,系統(tǒng)需要不斷服務并作用于信息機構(gòu)的格式規(guī)劃或指南。檔案與圖書機構(gòu)在接收數(shù)字文件時需對其格式有一定的規(guī)定以便可持續(xù)存儲與利用,但格式隨時代的發(fā)展是不斷變化的。因此系統(tǒng)應對格式的變化做出即時反映,使機構(gòu)可以較為準確地更新格式規(guī)劃或指南。

猜你喜歡
軟件數(shù)字系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
禪宗軟件
WJ-700無人機系統(tǒng)
工業(yè)軟件 自主創(chuàng)新
品“助讀系統(tǒng)”之妙
直擴系統(tǒng)中的窄帶干擾抑制
直擴系統(tǒng)中的窄帶干擾抑制
答數(shù)字
數(shù)字看G20
即時通訊軟件WhatsApp
合肥市| 雅江县| 阿拉尔市| 苗栗市| 延长县| 南召县| 阿拉善盟| 读书| 长岛县| 简阳市| 特克斯县| 宁海县| 普宁市| 丹凤县| 房山区| 海林市| 南通市| 神农架林区| 安达市| 磴口县| 丰宁| 碌曲县| 外汇| 治多县| 子洲县| 玛多县| 远安县| 齐齐哈尔市| 吉林市| 财经| 揭东县| 彩票| 宁阳县| 昔阳县| 永寿县| 甘南县| 城固县| 西安市| 旬阳县| 达孜县| 潞西市|