国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字保存的格式管理

2019-11-28 07:11
海峽科技與產(chǎn)業(yè) 2019年7期
關(guān)鍵詞:文檔數(shù)字標(biāo)準(zhǔn)

李 淳

中國北方車輛研究所,北京 100072

格式是為了存儲(chǔ)數(shù)字信息而使用的特殊編碼方式,是對(duì)數(shù)字對(duì)象的內(nèi)容信息進(jìn)行交換和表示的一種重要標(biāo)準(zhǔn),也是一個(gè)數(shù)字對(duì)象能否被有效使用的重要因素。數(shù)字保存必須考慮格式問題。

隨著信息技術(shù)的發(fā)展,各種新格式不斷涌現(xiàn),進(jìn)行有效的格式管理,了解格式本身完整的標(biāo)識(shí)信息,選擇有效的格式,才能保證數(shù)字內(nèi)容的可持續(xù)性。

1 數(shù)字保存的格式選擇原則

1.1 所選格式適用于多種環(huán)境

格式能在不同環(huán)境下使用,即能在不同操作系統(tǒng)、不同軟硬件平臺(tái)上使用,不受平臺(tái)的限制??梢詼p少管理程序與管理費(fèi)用,便于資源共享。這類格式兼容性強(qiáng),更便于數(shù)字內(nèi)容從一種載體介質(zhì)轉(zhuǎn)移到另一種載體介質(zhì),或從一種數(shù)字平臺(tái)轉(zhuǎn)換到另一種數(shù)字平臺(tái)。可以降低文件長期保存中因遷移而帶來的數(shù)據(jù)丟失風(fēng)險(xiǎn)。

1.2 所選格式支持從專用環(huán)境向通用環(huán)境遷移

在許多新的應(yīng)用領(lǐng)域,經(jīng)常會(huì)使用特有的專用格式。由于特定需求,一些通用格式也被改為不通用的專用格式。如果這些文件數(shù)據(jù)支持從專用環(huán)境中遷移出來,就有利于文件的長期保存,特別是元數(shù)據(jù)及系統(tǒng)文件的完好保存。

1.3 所選格式標(biāo)準(zhǔn)化程度較高

標(biāo)準(zhǔn)化的主要目的就是能夠盡可能地兼容不同的產(chǎn)品。選用標(biāo)準(zhǔn)格式可以保證數(shù)據(jù)的易傳性與共享性,減少文件保存過程中數(shù)據(jù)丟失的風(fēng)險(xiǎn)。

1.4 所選格式被用戶廣泛支持

被用戶廣泛使用的格式,即使暫時(shí)不是標(biāo)準(zhǔn),因?yàn)槠渲鲗?dǎo)了市場,已形成事實(shí)標(biāo)準(zhǔn),其他的應(yīng)用系統(tǒng)與數(shù)據(jù)也會(huì)以它為規(guī)范,以達(dá)到兼容的目的。廠家也更可能為該格式的更新提供遷移路徑,最大限度地保證新舊版本之間的兼容性,從而降低長期保存中數(shù)據(jù)丟失的風(fēng)險(xiǎn)。

1.5 所選格式可擴(kuò)展性強(qiáng)

文件在長期保存過程中,環(huán)境數(shù)據(jù)、元數(shù)據(jù)等都有可能發(fā)生變更。這就要求所選格式形成的文檔,在不干擾文件內(nèi)容真實(shí)性、完整性的前提下,能夠支持信息的擴(kuò)展或變更。

1.6 所選格式能夠記錄文件處理過程

理想的文件格式要能夠記錄下該文件內(nèi)容的所有變動(dòng)狀況,如文件創(chuàng)建者、何時(shí)創(chuàng)建、文件大小、變更記錄等。這些信息詳細(xì)揭示了文件的處理情況。

2 數(shù)字保存的推薦格式

在長期保存的實(shí)踐活動(dòng)中,不同的組織機(jī)構(gòu)為指導(dǎo)內(nèi)部的數(shù)字保存過程,根據(jù)自身的需求和特點(diǎn),形成了比較成熟的格式規(guī)范。這些推薦格式具有一定的指導(dǎo)意義,值得借鑒。

2.1 FDA 格式規(guī)范

美國佛羅里達(dá)數(shù)字檔案項(xiàng)目(Florida Digital Archive,F(xiàn)DA),針對(duì)文本、圖形圖像、聲音視頻、程序、電子表格等形式的數(shù)字內(nèi)容,推薦詳細(xì)的存儲(chǔ)格式。

2.2 美國國會(huì)圖書館格式規(guī)范

美國國會(huì)圖書館格式規(guī)范研究文本和音樂作品、靜態(tài)圖像作品、音頻作品、運(yùn)動(dòng)圖像作品、軟件和電子游戲、數(shù)據(jù)集/數(shù)據(jù)庫這六大類內(nèi)容的格式和相關(guān)標(biāo)準(zhǔn)。推薦使用可持續(xù)的格式,遵循一定的技術(shù)標(biāo)準(zhǔn),數(shù)字保存才更可靠,也更節(jié)約成本。

2.3 UK Data Archive 格式規(guī)范

UK Data Archive 擁有英國最大的社會(huì)科學(xué)和人文科學(xué)的數(shù)字研究數(shù)據(jù)館藏,其格式規(guī)范支持?jǐn)?shù)據(jù)的共享、重復(fù)利用和保存。數(shù)字內(nèi)容使用標(biāo)準(zhǔn)格式進(jìn)行保存,有利于數(shù)據(jù)的解讀、交換和傳遞。保證數(shù)字資源長期保存最穩(wěn)妥的方法就是將數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)格式。

3 數(shù)據(jù)保存的重要格式

文件格式品類繁雜,數(shù)量眾多,各有特點(diǎn)、優(yōu)勢和適用場合。在長期保存中有幾種代表性格式。

3.1 PDF/Archive (PDF/A)

PDF/A 一直是業(yè)內(nèi)的重要標(biāo)準(zhǔn),可長期安全地保存文件,還可始終如一地顯示文件效果。PDF/A 創(chuàng)建速度快,文檔體積小,支持?jǐn)?shù)字簽名,獨(dú)立于軟硬件、可進(jìn)行可靠的數(shù)據(jù)交換,易于更新、搜索,保存成本低,長期持續(xù)可靠,是電子文件長期保存最理想的文檔格式之一,被廣泛用于保存文本數(shù)字對(duì)象。

3.2 JPEG

聯(lián)合圖像專家小組(Joint Photographic Experts Group,JPEG),其系列格式具有較好的壓縮率,失真率較低,圖像品質(zhì)好,存儲(chǔ)容量小,傳遞和呈現(xiàn)速度快,支持廣泛,有一定的技術(shù)優(yōu)勢,是長期保存中主要的圖像保存格式之一。

3.3 TIFF

標(biāo)簽圖像文件格式(Tagged Image File Format,TIFF)是一種主要用來存儲(chǔ)照片和藝術(shù)圖的圖像文件格式,廣泛應(yīng)用于對(duì)質(zhì)量要求較高的圖像的存儲(chǔ)與轉(zhuǎn)換。通過在文件頭中包含的“標(biāo)簽”,它能在一個(gè)文件中處理多幅圖像和數(shù)據(jù)。標(biāo)簽?zāi)軌驑?biāo)明圖像的基本幾何尺寸,定義圖像數(shù)據(jù)的排列。

TIFF 結(jié)構(gòu)靈活,適應(yīng)性強(qiáng),壓縮損失率低,能可靠、高質(zhì)量地存儲(chǔ)圖像,已成為圖像文件格式的一種標(biāo)準(zhǔn),絕大部分圖像系統(tǒng)都支持這種格式,是保存圖像時(shí)的首選格式之一。

3.4 MPEG

MPEG 是標(biāo)準(zhǔn)的視頻壓縮編碼技術(shù)。主要利用具有運(yùn)動(dòng)補(bǔ)償?shù)膸g壓縮編碼技術(shù),減小時(shí)間冗余度;利用DCT 技術(shù),減小圖像的空間冗余度;利用熵編碼,減小信息統(tǒng)計(jì)冗余度。這幾種技術(shù)的綜合運(yùn)用,大大增強(qiáng)了壓縮性能。

MPEG 文件具有高壓縮比,容量小,節(jié)約保存空間和成本,失真率低,可以較完整地記錄聲音和視頻,是長期保存中保存音頻和視頻的理想格式,得到了廣泛的應(yīng)用[1]。

4 數(shù)字保存的格式工具

數(shù)字保存的格式工具主要功能包括文件識(shí)別和格式驗(yàn)證。文件識(shí)別是判定一個(gè)數(shù)字對(duì)象預(yù)定格式的過程;格式驗(yàn)證是鑒別一個(gè)數(shù)字對(duì)象是否符合格式的語法和語義規(guī)則的過程。

4.1 DROID

數(shù)字記錄對(duì)象識(shí)別(Digital Record Object Identificaition,DROID)是英國國家檔案館開發(fā)的免費(fèi)應(yīng)用軟件,使用存儲(chǔ)在PRONOM 中的登記信息實(shí)現(xiàn)格式的自動(dòng)識(shí)別。文件首先被讀進(jìn)內(nèi)存,然后通過一個(gè)循環(huán)完成文件與內(nèi)部登記信息的匹配,并把匹配的內(nèi)部登記信息及其相關(guān)格式記入結(jié)果列表中,再根據(jù)文件的擴(kuò)展名,即外部登記信息,做進(jìn)一步的分析處理。

DROID軟件工具能夠自動(dòng)識(shí)別200多種文件格式,記錄文件類型、版本、大小、修改時(shí)間等,能夠及時(shí)發(fā)現(xiàn)文件格式的風(fēng)險(xiǎn),提高數(shù)字格式的可持續(xù)性,支持?jǐn)?shù)據(jù)容量縮減,節(jié)約存儲(chǔ)成本[2]。

4.2 Fido

數(shù)字對(duì)象格式識(shí)別工具(Format Identification for Digital Objects,F(xiàn)ido)是使用Python 編寫的開源命令行應(yīng)用程序,是使用PRONOM 格式簽名的識(shí)別工具。識(shí)別結(jié)果按照PRONOM 兼容的持久唯一標(biāo)識(shí)符PUIDs進(jìn)行報(bào)告。Fido 覆蓋了PRONOM 數(shù)據(jù)庫的所有格式[3]。

4.3 MET

元數(shù)據(jù)抽取工具(Metadata Extraction Tool,MET)由新西蘭國家圖書館開發(fā)。它從一系列不同格式的數(shù)字文件(包括PDF、圖像、聲音、Office等格式)中,抽取保存元數(shù)據(jù),并將這些元數(shù)據(jù)以標(biāo)準(zhǔn)格式XML 輸出,供長期保存使用。該程序打開的所有文件都為只讀,保證了原始文件的完整性。該工具只讀取文件頭部信息,所以整個(gè)抽取過程速度很快[4]。

4.4 JHOVE2

JHOVE2 由加利福尼亞數(shù)字圖書館、Protico、斯坦福大學(xué)開發(fā),是在著名的JHOVE 工具上改進(jìn)的一個(gè)開源軟件,受到美國國會(huì)圖書館的國家數(shù)字信息基礎(chǔ)設(shè)施和保存項(xiàng)目的資助。JHOVE2 的功能包括識(shí)別、特征提取、評(píng)估和策略[5]。

4.5 FITS

文件識(shí)別工具集(File Information Tools,F(xiàn)ITS)是哈佛大學(xué)圖書館開發(fā)的信息系統(tǒng)開源軟件,是一些外部工具的包裝器。除了具有識(shí)別的功能,還可以用于特征提取和驗(yàn)證。FITS 將所有的本地輸出轉(zhuǎn)換成通用格式FITS XML。

4.6 Apache Tika

Apache Tika 是Java 語言的開源工具集,利用現(xiàn)有的解析類庫,從文檔中探測和抽取元數(shù)據(jù)和結(jié)構(gòu)化文本內(nèi)容。主要功能包括偵測文檔的類型、字符編碼、語言等其他現(xiàn)有文檔的屬性,并在此基礎(chǔ)上提取結(jié)構(gòu)化的文字內(nèi)容[6]。

5 小結(jié)

格式管理貫穿數(shù)據(jù)保存生命周期的各個(gè)階段,是數(shù)字保存的重點(diǎn)問題。目前,格式管理越來越受到重視,但是存在的問題仍然有待進(jìn)一步探討和研究。

猜你喜歡
文檔數(shù)字標(biāo)準(zhǔn)
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
忠誠的標(biāo)準(zhǔn)
美還是丑?
答數(shù)字
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
數(shù)字看G20
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
禹城市| 无棣县| 马山县| 方城县| 承德市| 璧山县| 天气| 吉安县| 汽车| 霍林郭勒市| 逊克县| 墨脱县| 汉沽区| 扎兰屯市| 德兴市| 宁乡县| 湘潭县| 渝中区| 柳江县| 岳阳市| 临颍县| 随州市| 黎川县| 苗栗市| 镇原县| 湛江市| 漳州市| 宁蒗| 彭州市| 汾西县| 甘洛县| 股票| 绩溪县| 叙永县| 江孜县| 靖州| 镇沅| 临汾市| 平谷区| 乌鲁木齐县| 同江市|