臧國全 朱曉慶 李哲 金燕
摘要 針對(duì)數(shù)字保存風(fēng)險(xiǎn)之一的持續(xù)完整性風(fēng)險(xiǎn)設(shè)計(jì)檢測方法,并針對(duì)檢測方法進(jìn)行實(shí)驗(yàn)研究。(1)調(diào)研相關(guān)文獻(xiàn),找出研究的切入點(diǎn);(2)界定持續(xù)完整性的含義,析出產(chǎn)生持續(xù)完整性風(fēng)險(xiǎn)的因素;(3)設(shè)計(jì)持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù),設(shè)置該類風(fēng)險(xiǎn)的檢測點(diǎn);(4)基于一個(gè)實(shí)際保存系統(tǒng),利用分層隨機(jī)抽樣法,采集數(shù)字對(duì)象及其持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)內(nèi)容的實(shí)驗(yàn)樣本;(5)編制代碼,檢測數(shù)字對(duì)象樣本集的持續(xù)完整性風(fēng)險(xiǎn)點(diǎn).統(tǒng)計(jì)檢測結(jié)果,分析可能的產(chǎn)生原因,制定可能的降低風(fēng)險(xiǎn)措施;(6)基于實(shí)驗(yàn)結(jié)果,分析檢測方法的局限性.說明檢測方法的使用事項(xiàng)。
關(guān)鍵詞 數(shù)字保存持續(xù)完整性風(fēng)險(xiǎn) 風(fēng)險(xiǎn)檢測
分類號(hào) G250
DOI 10.16603 /j.issn1002 - 1027.2018.02.010
1 文獻(xiàn)綜述
1.1 風(fēng)險(xiǎn)識(shí)別方面
數(shù)字保存的風(fēng)險(xiǎn)管理研究已有20余年。康威(Conway)是該領(lǐng)域的較早研究者,在其《數(shù)字世界的保存》中將數(shù)字保存活動(dòng)識(shí)別為風(fēng)險(xiǎn)管理過程。之后,相關(guān)研究可歸為三類:
專用型風(fēng)險(xiǎn)模型。主要有數(shù)字對(duì)象文件格式的風(fēng)險(xiǎn)、保存介質(zhì)的風(fēng)險(xiǎn)、特定類型數(shù)字資源(如Web數(shù)字資源)的保存風(fēng)險(xiǎn)等。這類模型適合于相應(yīng)領(lǐng)域的風(fēng)險(xiǎn)識(shí)別,盡管它們具有一定的互補(bǔ)性,但無法替代綜合型風(fēng)險(xiǎn)模型。
綜合型風(fēng)險(xiǎn)模型。結(jié)構(gòu)上有等級(jí)式風(fēng)險(xiǎn)模型、同位列表式風(fēng)險(xiǎn)模型、網(wǎng)狀式風(fēng)險(xiǎn)模型。另外,有些綜合型風(fēng)險(xiǎn)模型也描繪了風(fēng)險(xiǎn)、數(shù)字對(duì)象、保存環(huán)境之間的關(guān)系?!冻晒Φ臄?shù)字保存威脅識(shí)別:用于風(fēng)險(xiǎn)評(píng)估的SPOT模型》一文從數(shù)字保存核心職責(zé)角度識(shí)別保存風(fēng)險(xiǎn)。由于這類模型的應(yīng)用環(huán)境和目的不同,導(dǎo)致它們?cè)陲L(fēng)險(xiǎn)的種類、數(shù)量及模型展現(xiàn)形式等方面存在差異。
數(shù)字保存風(fēng)險(xiǎn)的實(shí)證研究。如基于羅森塔爾(Rosenthal)模型并進(jìn)行適當(dāng)改造,對(duì)美國國會(huì)圖書館數(shù)字保存的風(fēng)險(xiǎn)檢查;基于萊特(Wright)模型的對(duì)大英圖書館數(shù)字保存介質(zhì)的風(fēng)險(xiǎn)評(píng)估。這類研究是對(duì)已有模型的實(shí)證分析,有助于數(shù)字保存項(xiàng)目選擇合適的風(fēng)險(xiǎn)評(píng)估模型。
上述風(fēng)險(xiǎn)模型的優(yōu)缺點(diǎn)分析見表1?;诒?的分析,已有的風(fēng)險(xiǎn)模型都存在不同程度的缺憾,還沒見到完全滿足表1列出指標(biāo)的模型的報(bào)道。
[注1]:指應(yīng)按照一種方法識(shí)別風(fēng)險(xiǎn),避免歧義和重復(fù)。識(shí)別方法有兩種:一是基于風(fēng)險(xiǎn)發(fā)生的原因,如存儲(chǔ)介質(zhì)退化;二是基于風(fēng)險(xiǎn)發(fā)生的結(jié)果,如二進(jìn)制數(shù)據(jù)流序列被破壞。混合式風(fēng)險(xiǎn)列舉方法將影響概念的清晰性。
[注2]:指列舉的風(fēng)險(xiǎn)在概念外延上適中。外延太大的風(fēng)險(xiǎn)較難測度,也較難識(shí)別產(chǎn)生風(fēng)險(xiǎn)的具體原因;外延太小的風(fēng)險(xiǎn)可能會(huì)導(dǎo)致重復(fù)檢測;概念模糊的風(fēng)險(xiǎn)會(huì)導(dǎo)致檢測結(jié)果的誤差。另外,在任何結(jié)構(gòu)的模型(等級(jí)式、同位列表式、網(wǎng)狀式)中,同位風(fēng)險(xiǎn)的概念外延應(yīng)大致相當(dāng),且外延之和應(yīng)與上位風(fēng)險(xiǎn)大致吻合。
[注3]:應(yīng)列出模型界定范圍內(nèi)的所有主要風(fēng)險(xiǎn)。比如,一個(gè)基于原因的針對(duì)數(shù)字對(duì)象的風(fēng)險(xiǎn)識(shí)別模型,若無存儲(chǔ)介質(zhì)風(fēng)險(xiǎn),則保存系統(tǒng)無法識(shí)別和管理這種風(fēng)險(xiǎn)。
[注4]:使用方式有兩種:定性評(píng)估和定量檢測。在所列模型的使用說明中,均表示可用于定性評(píng)估,但若用于定量檢測,需針對(duì)每個(gè)風(fēng)險(xiǎn)點(diǎn)設(shè)置檢測項(xiàng)目。
1.2 相關(guān)標(biāo)準(zhǔn)
ISO14721:2003?!禣AIS參考模型》(OpenArchive Information System),制定了數(shù)字保存系統(tǒng)的框架結(jié)構(gòu)和概念規(guī)范。起源于國際空間數(shù)據(jù)系統(tǒng)咨詢委員會(huì)(Consultative Committee for SpaceData Systems).目的在于維護(hù)數(shù)字對(duì)象的長期有效存取。
IS0 16363:2013。《可信任數(shù)字保存的審計(jì)與認(rèn)證》,制定了保存系統(tǒng)的質(zhì)量標(biāo)準(zhǔn)。其中的《可信任數(shù)字保存審查表》及其認(rèn)證程序間接地展示了數(shù)字保存的風(fēng)險(xiǎn)。
IS0 16919:2014?!犊尚湃螖?shù)字保存的審計(jì)和認(rèn)證機(jī)構(gòu)要求》,制定了審計(jì)和認(rèn)證的程序,以及對(duì)認(rèn)證機(jī)構(gòu)的基本要求。
由上可知,相關(guān)標(biāo)準(zhǔn)都不是真正的數(shù)字保存風(fēng)險(xiǎn)列表。ISO14721提供一個(gè)數(shù)字保存功能框架模型,目的是保證數(shù)字對(duì)象在長期保存過程中規(guī)避可能的保存風(fēng)險(xiǎn),但不是一個(gè)風(fēng)險(xiǎn)列表。IS0 16363的《可信任數(shù)字保存審查表》實(shí)際上是數(shù)字保存的質(zhì)量評(píng)價(jià)指標(biāo)體系,雖然本質(zhì)上每個(gè)指標(biāo)隱含一種或多種風(fēng)險(xiǎn),但并不是風(fēng)險(xiǎn)列表。IS0 16919是對(duì)數(shù)字保存質(zhì)量認(rèn)證機(jī)構(gòu)的要求,也不是風(fēng)險(xiǎn)列表。
1.3 本研究的切入點(diǎn)
從風(fēng)險(xiǎn)發(fā)生的角度。數(shù)字保存的風(fēng)險(xiǎn)有兩個(gè)范疇:數(shù)字對(duì)象風(fēng)險(xiǎn)、保存系統(tǒng)的風(fēng)險(xiǎn)。前者有數(shù)字對(duì)象的獲取、存儲(chǔ)、維護(hù)和傳播等方面的風(fēng)險(xiǎn),后者有保存系統(tǒng)經(jīng)濟(jì)方面、產(chǎn)權(quán)管理方面的風(fēng)險(xiǎn)。已有的標(biāo)準(zhǔn)和風(fēng)險(xiǎn)識(shí)別模型(除專用型)都包括上述兩個(gè)范疇。本研究限定在第一個(gè)范疇,即數(shù)字對(duì)象產(chǎn)生的風(fēng)險(xiǎn),當(dāng)然第二個(gè)范疇的風(fēng)險(xiǎn)也會(huì)影響數(shù)字對(duì)象的風(fēng)險(xiǎn),但這種影響是間接的,尤其是針對(duì)本研究的持續(xù)完整性風(fēng)險(xiǎn)。另外,一些保存活動(dòng)也會(huì)導(dǎo)致數(shù)字對(duì)象產(chǎn)生風(fēng)險(xiǎn),但這類風(fēng)險(xiǎn)常需要依據(jù)保存政策來判斷。所以,本研究的風(fēng)險(xiǎn)檢測點(diǎn)以風(fēng)險(xiǎn)型元數(shù)據(jù)形式呈現(xiàn),包括數(shù)字對(duì)象方面的、保存事件方面的和保存政策方面的三種。
從風(fēng)險(xiǎn)類型的角度。數(shù)字對(duì)象的風(fēng)險(xiǎn)有多種,如持續(xù)完整性風(fēng)險(xiǎn)、可用性風(fēng)險(xiǎn)、可呈現(xiàn)性風(fēng)險(xiǎn)、真實(shí)性風(fēng)險(xiǎn)、可識(shí)別性風(fēng)險(xiǎn)、可理解性風(fēng)險(xiǎn)等。已有的標(biāo)準(zhǔn)和風(fēng)險(xiǎn)識(shí)別模型都囊括了數(shù)字對(duì)象的所有類型風(fēng)險(xiǎn)。但作為一篇學(xué)術(shù)論文,本研究僅限定在持續(xù)完整性風(fēng)險(xiǎn),其他類型的風(fēng)險(xiǎn)后續(xù)研究。
從風(fēng)險(xiǎn)識(shí)別方法的角度。上述模型中的風(fēng)險(xiǎn)識(shí)別方法有三種:基于風(fēng)險(xiǎn)發(fā)生的原因、基于風(fēng)險(xiǎn)產(chǎn)生的結(jié)果、同時(shí)包括這兩種方式的混合型識(shí)別法。本研究首先基于全面風(fēng)險(xiǎn)管理理論劃分風(fēng)險(xiǎn)的范疇,然后針對(duì)每個(gè)范疇的風(fēng)險(xiǎn),基于風(fēng)險(xiǎn)發(fā)生的原因,識(shí)別出風(fēng)險(xiǎn)點(diǎn)。
從風(fēng)險(xiǎn)評(píng)估的角度。已有的評(píng)估方法都是定性的,本研究的評(píng)估方法是定量的。為此,本研究對(duì)每個(gè)風(fēng)險(xiǎn)點(diǎn)設(shè)計(jì)檢測項(xiàng)目,編制代碼進(jìn)行定量檢測,統(tǒng)計(jì)并分析檢測結(jié)果。
2 持續(xù)完整性及其風(fēng)險(xiǎn)檢測思路
2.1 持續(xù)完整性及其風(fēng)險(xiǎn)
持續(xù)完整性指構(gòu)成數(shù)字對(duì)象的比特流持續(xù)存在且沒有被破壞,處于可使用、可操作狀態(tài),并可從保存介質(zhì)中完整檢索出來以實(shí)施瀏覽等操作。因此,確保數(shù)字對(duì)象比特流沒有發(fā)生任何形式的改變,并能從保存介質(zhì)中被完整閱讀,是實(shí)現(xiàn)數(shù)字對(duì)象持續(xù)完整性的兩個(gè)必要條件。
持續(xù)完整性風(fēng)險(xiǎn)指保存系統(tǒng)中妨礙實(shí)現(xiàn)數(shù)字對(duì)象持續(xù)完整性的各種因素發(fā)生的可能性。這些因素包括:(1)數(shù)字對(duì)象的不適宜存儲(chǔ),如保存條件不足導(dǎo)致無法實(shí)現(xiàn)所需的保存級(jí)別,致使長期保存過程中數(shù)字對(duì)象比特流可能被破壞且無法恢復(fù),出現(xiàn)難以被操作使用的情況;(2)存儲(chǔ)介質(zhì)超出有效期,導(dǎo)致介質(zhì)自然退化,致使存儲(chǔ)的數(shù)字對(duì)象比特流序列可能被破壞,出現(xiàn)無法被完整檢索、瀏覽的情況;(3)存儲(chǔ)介質(zhì)被破壞,或病毒導(dǎo)致,或操作人員失誤導(dǎo)致,致使保存的數(shù)字對(duì)象比特流不再持續(xù)完整;(4)用于判斷數(shù)字對(duì)象持續(xù)完整性的信息沒有被記錄,如信息摘要、密鑰信息等,導(dǎo)致長期保存過程中無法驗(yàn)證數(shù)字對(duì)象是否被破壞,致使其持續(xù)完整性可能出現(xiàn)風(fēng)險(xiǎn);(5)保存系統(tǒng)沒有按照保存政策的要求實(shí)施必要的保存活動(dòng),如存儲(chǔ)介質(zhì)刷新、固定性檢查、病毒檢查等,導(dǎo)致數(shù)字對(duì)象的持續(xù)完整性亦可能出現(xiàn)風(fēng)險(xiǎn)。
總之,數(shù)字對(duì)象持續(xù)完整性風(fēng)險(xiǎn)主要存在于存儲(chǔ)介質(zhì)的管理、保存系統(tǒng)的保存能力、保存事件的實(shí)施、數(shù)字對(duì)象相關(guān)信息的記錄、數(shù)據(jù)安全方針的制定等方面。
2.2 檢測思路
本文設(shè)計(jì)的檢測思路是:(1)界定持續(xù)完整性的含義,由此析出產(chǎn)生持續(xù)完整性風(fēng)險(xiǎn)的因素;(2)基于風(fēng)險(xiǎn)產(chǎn)生因素,設(shè)計(jì)持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù),由此實(shí)現(xiàn)該類風(fēng)險(xiǎn)檢測點(diǎn)的設(shè)置,并設(shè)置每個(gè)風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目;(3)基于一個(gè)實(shí)際保存系統(tǒng),利用分層隨機(jī)抽樣法,采集數(shù)字對(duì)象及其持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)內(nèi)容的實(shí)驗(yàn)樣本;(4)編制代碼,檢測數(shù)字對(duì)象樣本集的持續(xù)完整性風(fēng)險(xiǎn)點(diǎn)的各個(gè)檢測項(xiàng)目,統(tǒng)計(jì)檢測結(jié)果,分析可能的產(chǎn)生原因,制定可能的降低風(fēng)險(xiǎn)措施。
3 持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)
根據(jù)全面風(fēng)險(xiǎn)管理理論,企業(yè)風(fēng)險(xiǎn)產(chǎn)生于企業(yè)整個(gè)運(yùn)營過程,不僅來自生產(chǎn)經(jīng)營的對(duì)象,還來自生產(chǎn)經(jīng)營的活動(dòng)以及相關(guān)政策。針對(duì)數(shù)字保存,“生產(chǎn)經(jīng)營對(duì)象”是數(shù)字對(duì)象,“生產(chǎn)經(jīng)營活動(dòng)”是保存事件,“相關(guān)政策”是保存政策。因此,可從數(shù)字對(duì)象、保存事件、保存政策等角度來分析數(shù)字保存風(fēng)險(xiǎn)的產(chǎn)生因素,設(shè)置風(fēng)險(xiǎn)型元數(shù)據(jù)。
3.1 數(shù)字對(duì)象方面的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)
數(shù)字對(duì)象是保存系統(tǒng)存儲(chǔ)和用戶訪問的獨(dú)立知識(shí)單元。有四種:一是知識(shí)實(shí)體,是描述一項(xiàng)特定知識(shí)所需的內(nèi)容集合,如一本書、一幅地圖、一張照片、一個(gè)數(shù)據(jù)庫等;二是表現(xiàn),是將一個(gè)知識(shí)實(shí)體實(shí)例化的一個(gè)數(shù)字化對(duì)象,一般由多個(gè)數(shù)字化文件及結(jié)構(gòu)化元數(shù)據(jù)組成,用于知識(shí)實(shí)體的展現(xiàn),一個(gè)知識(shí)實(shí)體可以有多個(gè)表現(xiàn);三是文件,是可以被操作系統(tǒng)識(shí)別的一組有序的字節(jié);四是比特流,是文件內(nèi)連續(xù)或非連續(xù)的數(shù)據(jù)。針對(duì)持續(xù)完整性,只需檢測文件和比特流,因?yàn)槠渌麅深悢?shù)字對(duì)象均由多個(gè)文件或比特流組成,若其中一個(gè)文件或比特流的持續(xù)完整性m現(xiàn)風(fēng)險(xiǎn),對(duì)應(yīng)的知識(shí)實(shí)體或表現(xiàn)的持續(xù)完整性自動(dòng)出現(xiàn)風(fēng)險(xiǎn)。
數(shù)字對(duì)象方面的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)是用于描述與持續(xù)完整性相關(guān)的數(shù)字對(duì)象屬性,是持續(xù)完整性風(fēng)險(xiǎn)的檢測點(diǎn)。這類元數(shù)據(jù)的元素有:
(1)數(shù)字對(duì)象標(biāo)識(shí)符(Object Identifier)。數(shù)字對(duì)象被賦予的唯一標(biāo)識(shí)符,以供檢索和發(fā)現(xiàn),亦方便參考和引用。該元素內(nèi)容可由保存系統(tǒng)收錄數(shù)字對(duì)象時(shí)創(chuàng)建,也可由生產(chǎn)者創(chuàng)建并與數(shù)字對(duì)象一起提交給保存系統(tǒng)。賦值方式有保存系統(tǒng)自動(dòng)生成和人工賦值兩種。該風(fēng)險(xiǎn)點(diǎn)的作用為:該元素內(nèi)容缺失導(dǎo)致無法識(shí)別對(duì)應(yīng)數(shù)字對(duì)象,也就無法進(jìn)行后續(xù)風(fēng)險(xiǎn)點(diǎn)的檢測。
(2)數(shù)字對(duì)象類型《Object Category)。用于描述數(shù)字對(duì)象的類型(知識(shí)實(shí)體、表現(xiàn)、文件、比特流)。該風(fēng)險(xiǎn)點(diǎn)的作用為:篩選用于檢測的文件和比特流對(duì)象;該元素內(nèi)容缺失導(dǎo)致無法判斷數(shù)字對(duì)象是否適合持續(xù)完整性風(fēng)險(xiǎn)的檢測。
(3)固定性信息(Fixity Information)。描述數(shù)字對(duì)象在長期保存過程中是否被改變的驗(yàn)證所需信息。固定性檢查需要計(jì)算數(shù)字對(duì)象的信息摘要,并與系統(tǒng)收錄時(shí)產(chǎn)生的信息摘要對(duì)比,如果兩個(gè)摘要相同,則該數(shù)字對(duì)象在保存過程中沒有改變,否則說明發(fā)生了改變。因此,固定性檢查是一個(gè)保存事件,記錄該保存活動(dòng)的實(shí)施時(shí)間和檢查結(jié)果。但作為數(shù)字對(duì)象的一個(gè)屬性,固定性信息的描述項(xiàng)有:(a)信息摘要算法,如消息摘要算法第五版(MessageDigest Algorithm,MD5)、可變長度的哈希算法(Hashing Algorithm with Variable Length, HA-VAL)、安全散列算法(Secure Hash Algorithm,SHA-256)等;(b)信息摘要,信息摘要算法運(yùn)行的結(jié)果。固定性信息的賦值可由數(shù)字對(duì)象提交者產(chǎn)生,但需保存系統(tǒng)驗(yàn)證,否則需由保存系統(tǒng)在收錄數(shù)字對(duì)象時(shí)產(chǎn)生。
該風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目有:(a)若信息摘要算法內(nèi)容為空,則無法計(jì)算新的信息摘要,無法判斷數(shù)字對(duì)象是否改變;(b)若信息摘要內(nèi)容為空,則基于原始算法計(jì)算出的新信息摘要缺失對(duì)比的基準(zhǔn)值,也無法判斷數(shù)字對(duì)象是否改變;(c)基于原始算法計(jì)算出的新信息摘要與原始信息摘要比較,若不同,數(shù)字對(duì)象發(fā)生改變。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)。
(4)簽名信息(Signature Information)。常用于信息傳輸過程中接收者確認(rèn)信息來源的真實(shí)性。在數(shù)字保存中,可借用來判斷數(shù)字對(duì)象在長期保存過程中是否改變。基于數(shù)字簽名的持續(xù)完整性驗(yàn)證方法為:(a)數(shù)字簽名值的生成,保存系統(tǒng)收錄數(shù)字對(duì)象時(shí),采用一種哈希算法生成信息摘要,再使用保存系統(tǒng)私鑰對(duì)信息摘要進(jìn)行加密生成簽名值;(b)持續(xù)完整性驗(yàn)證,采用相同哈希算法生成數(shù)字對(duì)象的新信息摘要,使用保存系統(tǒng)的公鑰對(duì)數(shù)字簽名值解密獲取原始信息摘要,對(duì)比兩個(gè)信息摘要,若不同,則數(shù)字對(duì)象發(fā)生改變。
簽名信息的描述項(xiàng)有:(a)簽名者,若數(shù)字對(duì)象提交時(shí)已有簽名值,則簽名者為提交者,否則保存系統(tǒng)需生成簽名值,簽名者為保存系統(tǒng);(b)簽名方法,生成簽名值所使用的加密方法和哈希算法,如數(shù)字簽名一安全散列算法(Digital Signature Algorithm-Secure Hash Algorithm,DSA-SHAl),前者為加密方法,后者是哈希算法;(c)信息摘要,基于簽名方法中哈希算法生成數(shù)字對(duì)象的摘要;(d)簽名值,使用私鑰對(duì)信息摘要加密生成的值;(e)密鑰信息,驗(yàn)證數(shù)字簽名所需的簽名者公鑰信息。
該風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目有:(a)若簽名方法的內(nèi)容為空,則無法計(jì)算新的信息摘要,導(dǎo)致無法判斷數(shù)字對(duì)象在保存過程中是否改變;(b)若密鑰信息或簽名值的內(nèi)容為空,無法還原原始信息摘要,導(dǎo)致新信息摘要缺失對(duì)比的基準(zhǔn)值;(c)基于簽名方法計(jì)算出的新信息摘要與基于密鑰信息和簽名值還原的原始信息摘要比較,若不同,則數(shù)字對(duì)象發(fā)生改變。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)。
與固定性信息相比,數(shù)字簽名增加了信息摘要的加密和對(duì)加密的信息摘要進(jìn)行解密的過程,這種方法雖較復(fù)雜,但更準(zhǔn)確,消除了同時(shí)惡意修改原始信息摘要和數(shù)字對(duì)象內(nèi)容使基于固定性判斷結(jié)果數(shù)字對(duì)象沒有被改變的可能性。
(5)文件大?。⊿ize)。數(shù)字對(duì)象的字節(jié)數(shù)量。若保存系統(tǒng)采用一個(gè)計(jì)量單位(如G,M,K),該元素只需記錄數(shù)字對(duì)象大小的值,無需記錄計(jì)量單位。
該風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目有:(a)將數(shù)字對(duì)象文件大小的檢測值與該元素的描述值比較,若不相等,數(shù)字對(duì)象發(fā)生變化;(b)若該元素內(nèi)容為空,數(shù)字對(duì)象大小的檢測值缺失對(duì)比的基準(zhǔn)值,無法判斷數(shù)字對(duì)象是否改變。上述兩種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)。
另外,如果數(shù)字對(duì)象的檢測值與該元素的描述值相等,也不能確保數(shù)字對(duì)象沒有發(fā)生改變,但為簡便起見,本文作為無風(fēng)險(xiǎn)處理。因此,該風(fēng)險(xiǎn)點(diǎn)的檢測結(jié)果具有一定誤差,遺漏了雖數(shù)字對(duì)象大小沒有改變但內(nèi)容已變化的情況。
(6)保存級(jí)別(Preservation Level)。描述針對(duì)一個(gè)數(shù)字對(duì)象實(shí)施相應(yīng)保存功能的保存決策信息,以及實(shí)施這些保存功能所需的保存環(huán)境信息。
保存系統(tǒng)可以根據(jù)數(shù)字對(duì)象的特征(如數(shù)字對(duì)象的價(jià)值和唯一性、格式的可保存性、法律法規(guī)的要求等)提供多個(gè)保存級(jí)別。保存級(jí)別的描述項(xiàng)有:(a)保存級(jí)別類型,描述選擇的保存級(jí)別期望對(duì)數(shù)字對(duì)象實(shí)施保存功能的類型,如“基于字節(jié)安全的保存”(即“比特保存”)。(b)保存級(jí)別值,描述對(duì)應(yīng)類型的保存級(jí)別期望實(shí)施的保存功能,如“比特保存”級(jí)別類型的保存功能可為:“低”(無備份)、“中”(異地一個(gè)備份,不定期實(shí)施完整性檢測)或“高”(異地三個(gè)備份,定期實(shí)施完整性檢測,備份之間高度獨(dú)立)。(c)保存系統(tǒng)的勝任狀態(tài),描述保存系統(tǒng)能否實(shí)現(xiàn)保存級(jí)別值定義的保存功能,比如“有能力”(指能夠?qū)崿F(xiàn)且已實(shí)現(xiàn)),“需要”(指期望實(shí)現(xiàn),但現(xiàn)在無法實(shí)現(xiàn))。(d)保存級(jí)別的賦值原因,當(dāng)數(shù)字對(duì)象的保存級(jí)別值與常規(guī)不同時(shí),需描述其原因,如根據(jù)法律規(guī)定或合同約定,對(duì)一個(gè)數(shù)字對(duì)象的保存級(jí)別的賦值要高于同類型的其他對(duì)象時(shí),該元素的值是“法律需求”或“合同約定”。(e)保存級(jí)別指定日期,隨著時(shí)間變化,需對(duì)數(shù)字對(duì)象的保存級(jí)別進(jìn)行評(píng)估和修改,以適應(yīng)保存系統(tǒng)的保存需求、策略或能力的變化。
該風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目有:(a)檢查“保存級(jí)別值”與實(shí)際實(shí)施的保存功能的相符性,如一個(gè)數(shù)字對(duì)象的保存級(jí)別值為上例的“中”,但數(shù)字對(duì)象在“存儲(chǔ)位置”元素中的描述僅有一個(gè)位置(即無備份),表明數(shù)字對(duì)象在遭到破壞情況下期望恢復(fù),但實(shí)際上無法實(shí)現(xiàn)恢復(fù),則判定該數(shù)字對(duì)象在該風(fēng)險(xiǎn)點(diǎn)存在風(fēng)險(xiǎn);(b)檢查“保存系統(tǒng)的勝任狀態(tài)”,若為“需要”,表明保存系統(tǒng)目前無法實(shí)現(xiàn)確保數(shù)字對(duì)象持續(xù)完整性所需的保存功能,則判定該數(shù)字對(duì)象在該風(fēng)險(xiǎn)點(diǎn)存在風(fēng)險(xiǎn)。該元素的檢測結(jié)果屬于間接相關(guān)風(fēng)險(xiǎn),即可能產(chǎn)生風(fēng)險(xiǎn)。
(7)存儲(chǔ)位置(Content Location)。存儲(chǔ)系統(tǒng)為數(shù)字對(duì)象分配的存儲(chǔ)定位,通常情況下,通過程序分配。存儲(chǔ)位置的描述項(xiàng)有:(a)存儲(chǔ)位置類型,如物理存儲(chǔ)、URI、絕對(duì)路徑、相對(duì)路徑;(b)存儲(chǔ)位置值,存儲(chǔ)系統(tǒng)使用的用于描述數(shù)字對(duì)象存儲(chǔ)位置的具體值,可以是一個(gè)完整的絕對(duì)路徑,也可以是解析系統(tǒng)中與物理路徑相對(duì)應(yīng)的信息,還可以是存儲(chǔ)系統(tǒng)使用的相對(duì)路徑信息。根據(jù)保存級(jí)別,若數(shù)字對(duì)象存在多個(gè)備份,存儲(chǔ)位置也應(yīng)有多個(gè),可采用重復(fù)該元素的方式分別描述。
該風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目有:(a)若該元素內(nèi)容為空,即使數(shù)字對(duì)象的唯一標(biāo)識(shí)符存在,也無法獲取具體的數(shù)字對(duì)象,故也無法對(duì)數(shù)字對(duì)象實(shí)施相應(yīng)檢測;(b)比較存儲(chǔ)位置的描述個(gè)數(shù)與保存級(jí)別中要求的數(shù)字對(duì)象備份數(shù)量是否相符,若不同,則可判定該數(shù)字對(duì)象在該風(fēng)險(xiǎn)點(diǎn)存在風(fēng)險(xiǎn)。由于持續(xù)完整性與存儲(chǔ)的具體位置無關(guān),因此在對(duì)數(shù)字對(duì)象進(jìn)行持續(xù)完整性風(fēng)險(xiǎn)檢測時(shí),只需判斷其是否有存儲(chǔ)位置以及存儲(chǔ)位置的個(gè)數(shù),無需檢查其具體的位置。上述兩種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)。
(8)存儲(chǔ)介質(zhì)(Storage Medium)。描述數(shù)字對(duì)象所存儲(chǔ)的物理介質(zhì)(如磁帶、硬盤、CD-ROM、DVD等)。若數(shù)字對(duì)象有多個(gè)備份,存在多個(gè)存儲(chǔ)介質(zhì),可采用重復(fù)該元素的方式分別描述。
該風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目有:(a)基于保存政策中保存介質(zhì)的使用壽命,判斷數(shù)字對(duì)象的保存介質(zhì)是否過期,有多個(gè)存儲(chǔ)介質(zhì)時(shí)應(yīng)分別判斷,若過期,保存的數(shù)字對(duì)象可能因?yàn)榻橘|(zhì)自然退化而遭到損壞。(b)判斷該元素的描述值是否為空,若為空,無法識(shí)別數(shù)字對(duì)象的存儲(chǔ)介質(zhì),導(dǎo)致無法知曉存儲(chǔ)介質(zhì)的狀況,難以判斷保存的數(shù)字對(duì)象是否遭到破壞。(c)基于該元素的描述值,尋找保存政策中設(shè)置的相應(yīng)存儲(chǔ)介質(zhì)的刷新周期,判斷保存事件“介質(zhì)刷新”的執(zhí)行是否符合保存政策的要求,若不相符,保存的數(shù)字對(duì)象可能因?yàn)榻橘|(zhì)損傷沒有得到及時(shí)發(fā)現(xiàn)和修補(bǔ)而遭到破壞。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)。
3.2 保存事件方面的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)
用于描述對(duì)數(shù)字對(duì)象實(shí)施保存操作的信息有兩種類型,一是執(zhí)行結(jié)果產(chǎn)生新數(shù)字對(duì)象的事件,如數(shù)字遷移;二是執(zhí)行結(jié)果不產(chǎn)生新數(shù)字對(duì)象的事件,如固定性檢查。由于持續(xù)完整性風(fēng)險(xiǎn)僅需對(duì)數(shù)字對(duì)象(包括相關(guān)保存環(huán)境)的檢查,所以這類風(fēng)險(xiǎn)檢測僅限在第二類事件。這類元數(shù)據(jù)的元素有:
(1)固定性檢查(Fixity Check)。根據(jù)保存政策對(duì)數(shù)字對(duì)象進(jìn)行固定性檢查。如果沒有執(zhí)行該事件或雖執(zhí)行但不符合保存政策要求,該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)。
(2)信息摘要計(jì)算(Message Digest Calculation)。保存系統(tǒng)通過計(jì)算獲得數(shù)字對(duì)象的原始信息摘要(若數(shù)字對(duì)象提交者提供原始信息摘要,保存系統(tǒng)需計(jì)算予以驗(yàn)證)。如果沒有執(zhí)行該事件,原始信息摘要缺失,無法執(zhí)行固定性檢測事件,也無法進(jìn)行固定性信息、數(shù)字簽名信息風(fēng)險(xiǎn)點(diǎn)的檢測,該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)。
(3)保存介質(zhì)刷新(Storage Medium Refresh)。根據(jù)保存政策對(duì)數(shù)字對(duì)象保存的介質(zhì)進(jìn)行刷新。如果沒有執(zhí)行該事件或雖執(zhí)行但不符合保存政策要求,該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)。
(4)病毒檢測(Virus Check)。根據(jù)保存政策進(jìn)行病毒檢測。如果沒有執(zhí)行該事件或雖執(zhí)行但不符合保存政策要求,該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)。
3.3 保存政策方面的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)
保存政策主要是數(shù)字保存操作的指標(biāo)設(shè)置。分為兩類:一是保存系統(tǒng)對(duì)保存事件實(shí)施規(guī)則的描述信息,比如保存介質(zhì)刷新的頻率、固定性檢測周期、病毒檢測周期等。二是保存系統(tǒng)對(duì)數(shù)字對(duì)象質(zhì)量判斷的指標(biāo)描述信息,比如數(shù)字對(duì)象的容錯(cuò)率、數(shù)據(jù)丟失的允許率、內(nèi)容失真的允許率、數(shù)字遷移的準(zhǔn)確率等。與持續(xù)完整性相關(guān)的保存政策僅限在第一種類型,另外,判斷數(shù)字對(duì)象的存儲(chǔ)介質(zhì)是否過期,需要參考存儲(chǔ)介質(zhì)的使用壽命。因此,這類元數(shù)據(jù)的元素有:
(1)存儲(chǔ)介質(zhì)的使用壽命(Media Life)。用于存儲(chǔ)介質(zhì)風(fēng)險(xiǎn)點(diǎn)的檢測。
(2)保存介質(zhì)刷新頻率(Media Refresh Rate)。用于保存事件“保存介質(zhì)刷新”風(fēng)險(xiǎn)點(diǎn)的檢測。
(3)固定性檢測周期(Fixty Check Period)。用于保存事件“固定性檢測”風(fēng)險(xiǎn)點(diǎn)的檢測。
(4)病毒檢測周期(Virus Check Period)。用于保存事件“病毒檢測”風(fēng)險(xiǎn)點(diǎn)的檢測。
4 檢測實(shí)驗(yàn)
4.1 數(shù)據(jù)采集
數(shù)字對(duì)象樣本來源于中國知網(wǎng)(CNKI),樣本采集量1萬件。
數(shù)字對(duì)象的樣本采集。(1)層次單元?jiǎng)澐帧;贑NKI數(shù)字對(duì)象的時(shí)間區(qū)間、文獻(xiàn)類型、學(xué)科類型三個(gè)屬性,將其劃分為504個(gè)層次單元,即:7(時(shí)間區(qū)間數(shù))×9(文獻(xiàn)類型數(shù))×8(學(xué)科類型數(shù))=504。其中,時(shí)間區(qū)間:1990年之前、1991-1995年、1996-2000年、2001-2005年、2005-2010年、2011-2015年、2016年之后;文獻(xiàn)類型:期刊、碩博論文、會(huì)議論文、年鑒、統(tǒng)計(jì)數(shù)據(jù)、專利、標(biāo)準(zhǔn)文獻(xiàn)、古籍、工具書;學(xué)科類型采用CNKI大類劃分:基礎(chǔ)學(xué)科、工程技術(shù)、農(nóng)業(yè)科技、醫(yī)療衛(wèi)生科技、哲學(xué)與人文科學(xué)、社會(huì)科學(xué)、信息科學(xué)、經(jīng)濟(jì)與管理科學(xué)。(2)各層次單元樣本量計(jì)算。計(jì)算各層次單元的數(shù)字對(duì)象數(shù)量與《中國知網(wǎng)》數(shù)字對(duì)象總數(shù)量的比例,乘以1萬(設(shè)定的樣本總量),獲得各層次單元的抽樣數(shù)量,這樣,各層次單元數(shù)字對(duì)象以接近的概率被抽樣。(3)樣本集形成。基于無重復(fù)抽樣的簡單隨機(jī)抽取法,從各層次單元中抽取樣本,通過套錄形成有代表性的數(shù)字對(duì)象樣本集。如依據(jù)上述方法計(jì)算出層次單元為“1995 - 2000年時(shí)間區(qū)間工程技術(shù)的專利文獻(xiàn)”的樣本抽取量為100篇,通過對(duì)《中國知網(wǎng)》檢索,該層次單元共有512833件,在1到512833之間隨機(jī)生成100個(gè)不重復(fù)的數(shù),套錄該100個(gè)數(shù)對(duì)應(yīng)的檢索結(jié)果數(shù)字對(duì)象,獲得該層次單元的樣本。
元數(shù)據(jù)元素的賦值。純粹用于科研目的,CNKI幫助提供上述樣本對(duì)象的保存型元數(shù)據(jù)、管理型元數(shù)據(jù)和描述型元數(shù)據(jù)的內(nèi)容。針對(duì)本文制定的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)的每個(gè)元素,若出現(xiàn)在上述任一種元數(shù)據(jù)中,則該元素內(nèi)容直接套錄,否則,該元素內(nèi)容置空。上述過程由代碼實(shí)現(xiàn),但需人工干預(yù),比如對(duì)名稱與CNKI不同但含義相同的元素的賦值需人工甄別和轉(zhuǎn)換。
4.2 代碼編制
代碼功能:針對(duì)不同維度的風(fēng)險(xiǎn)檢測(見4. 3.1,4.3.2,4.3.3,4.3.4),檢查、統(tǒng)計(jì)并以可視化形式展現(xiàn)相應(yīng)層次單元中數(shù)字對(duì)象在每個(gè)持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素的風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。代碼設(shè)計(jì)過程中涉及下述問題:
(1)數(shù)字對(duì)象的選擇。在樣本集中,刪除標(biāo)識(shí)符內(nèi)容為空的數(shù)字對(duì)象,因?yàn)檫@類數(shù)字對(duì)象無法識(shí)別。刪除類型不為“文件”和“比特流”的數(shù)字對(duì)象。
(2)元數(shù)據(jù)元素的選擇。數(shù)字對(duì)象類型、數(shù)字對(duì)象標(biāo)識(shí)符、所有保存政策的元數(shù)據(jù)元素等三類元素?zé)o需檢測。因?yàn)榈谝活愒赜糜诤Y選文件對(duì)象,第二類元素用于數(shù)字對(duì)象識(shí)別,第三類元素為保存事件元數(shù)據(jù)檢測提供參考基準(zhǔn)值。
(3)元數(shù)據(jù)元素賦值內(nèi)容的編碼。這是實(shí)現(xiàn)自動(dòng)檢測的基礎(chǔ)。另外,需對(duì)表達(dá)不同但含義一樣的賦值內(nèi)容歸并,賦予一個(gè)編碼,以提高檢測的準(zhǔn)確性。
4.3 風(fēng)險(xiǎn)檢測
4.3.1 單維度風(fēng)險(xiǎn)檢測
檢測并統(tǒng)計(jì)整個(gè)數(shù)字對(duì)象樣本集在持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)每一個(gè)元素的風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。結(jié)果見圖1。風(fēng)險(xiǎn)概率較高的風(fēng)險(xiǎn)點(diǎn)依次為:簽名信息、固定性信息、固定性檢測事件、信息摘要計(jì)算事件、保存級(jí)別。
4.3.2 二維度風(fēng)險(xiǎn)檢測
基于數(shù)字對(duì)象的一個(gè)屬性,加上持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)的元素,建立一個(gè)二維空間坐標(biāo)系,檢測并統(tǒng)計(jì)每個(gè)坐標(biāo)點(diǎn)上的數(shù)字對(duì)象集合在該坐標(biāo)點(diǎn)上持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素的風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。有下述三種類型:
(1){時(shí)間區(qū)間,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}二維風(fēng)險(xiǎn)檢測。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素、數(shù)字對(duì)象的時(shí)間區(qū)間屬性所建立的二維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的時(shí)間區(qū)間所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。結(jié)果見圖2的左圖。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,主要分布在3個(gè)層次單元:2000年之前的3個(gè)時(shí)間區(qū)間文獻(xiàn)。(b)固定性信息,主要分布在2個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間文獻(xiàn)。(c)固定性檢查事件,主要分布在2個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間文獻(xiàn)。(d)信息摘要計(jì)算事件,主要分布在2個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間文獻(xiàn)。(e)保存級(jí)別,主要分布在7個(gè)層次單元:所有7個(gè)時(shí)間區(qū)間文獻(xiàn)。
(2){文獻(xiàn)類型,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}二維風(fēng)險(xiǎn)檢測。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素、數(shù)字對(duì)象的文獻(xiàn)類型屬性所建立的二維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的文獻(xiàn)類型所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。結(jié)果見圖2的中間圖。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,主要分布在2個(gè)層次單元:期刊文獻(xiàn)、會(huì)議文獻(xiàn)。(b)固定性信息,主要分布在1個(gè)層次單元:期刊文獻(xiàn)。(c)固定性檢查事件,主要分布在1個(gè)層次單元:期刊文獻(xiàn)。(d)信息摘要計(jì)算事件,主要分布在1個(gè)層次單元:期刊文獻(xiàn)。(e)保存級(jí)別,主要分布在1個(gè)層次單元:專利文獻(xiàn)。
(3){學(xué)科類型,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}二維風(fēng)險(xiǎn)檢測。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素、數(shù)字對(duì)象的學(xué)科類型屬性所建立的二維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的學(xué)科類型所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。結(jié)果見圖2的右圖。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,分布在8個(gè)層次單元:所有的8個(gè)學(xué)科文獻(xiàn)。(b)固定性信息,分布在8個(gè)層次單元:所有的8個(gè)學(xué)科文獻(xiàn)。(c)固定性檢查事件,分布在8個(gè)層次單元:所有的8個(gè)學(xué)科文獻(xiàn)。(d)信息摘要計(jì)算事件,分布在8個(gè)層次單元:所有的8個(gè)學(xué)科文獻(xiàn)。(e)保存級(jí)別,主要分布在5個(gè)層次單元:5個(gè)學(xué)科文獻(xiàn)(基礎(chǔ)學(xué)科、工程技術(shù)學(xué)科、農(nóng)業(yè)科技、醫(yī)療衛(wèi)生科技、信息科學(xué))。
4.3.3 三維度風(fēng)險(xiǎn)檢測
基于數(shù)字對(duì)象的兩個(gè)屬性,加上持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)的元素,建立一個(gè)三維空間坐標(biāo)系,檢測并統(tǒng)計(jì)每個(gè)坐標(biāo)點(diǎn)上的數(shù)字對(duì)象集合在該坐標(biāo)點(diǎn)上持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。有下述三種類型:
(1){時(shí)間區(qū)間,文獻(xiàn)類型,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}三維風(fēng)險(xiǎn)檢測。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素以及數(shù)字對(duì)象的時(shí)間區(qū)間、文獻(xiàn)類型兩個(gè)屬性所建立的三維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的[時(shí)間區(qū)間,文獻(xiàn)類型]所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。檢測結(jié)果見圖3。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,主要分布在6個(gè)層次單元:2000年之前的3個(gè)時(shí)間區(qū)間的期刊文獻(xiàn)、會(huì)議論文。(b)固定性信息,主要分布在2個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的期刊文獻(xiàn)。(c)固定性檢查事件,主要分布在2個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的期刊文獻(xiàn)。(d)信息摘要計(jì)算事件,主要分布在2個(gè)層次單元:19 95年之前的2個(gè)時(shí)間區(qū)間的期刊文獻(xiàn)。(e)保存級(jí)別,主要分布在7個(gè)層級(jí)單元:所有7個(gè)時(shí)間區(qū)間的專利文獻(xiàn)。
(2){時(shí)間區(qū)間,學(xué)科類型,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}三維風(fēng)險(xiǎn)檢測。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素以及數(shù)字對(duì)象的時(shí)間區(qū)間、學(xué)科類型兩個(gè)屬性所建立的三維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的[時(shí)間區(qū)間,學(xué)科類型]所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。檢測結(jié)果見圖4。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,主要分布在24個(gè)層次單元:2000年之前的3個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科文獻(xiàn)。(b)固定性信息,主要分布在16個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科文獻(xiàn)。(c)固定性檢查事件,主要分布在16個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科文獻(xiàn)。(d)信息摘要計(jì)算事件,1995年之前的2個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科文獻(xiàn)。(e)保存級(jí)別,主要分布在35個(gè)層級(jí)單元:所有7個(gè)時(shí)間區(qū)間的5個(gè)學(xué)科文獻(xiàn)(基礎(chǔ)學(xué)科、工程技術(shù)學(xué)科、農(nóng)業(yè)科技、醫(yī)療衛(wèi)生科技、信息科學(xué))。
(3){文獻(xiàn)類型,學(xué)科類型,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}三維風(fēng)險(xiǎn)檢測。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素以及數(shù)字對(duì)象的文獻(xiàn)類型、學(xué)科類型兩個(gè)屬性所建立的三維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的[文獻(xiàn)類型,學(xué)科類型]所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。結(jié)果見圖5。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,主要分布在16個(gè)層次單元:所有8個(gè)學(xué)科的期刊文獻(xiàn)、所有8個(gè)學(xué)科的會(huì)議論文。(b)固定性信息,主要分布在8個(gè)層次單元:所有8個(gè)學(xué)科的期刊文獻(xiàn)。(c)固定性檢查事件,主要分布在8個(gè)層次單元:所有8個(gè)學(xué)科的期刊文獻(xiàn)。(d)信息摘要計(jì)算事件,主要分布在8個(gè)層次單元:所有8個(gè)學(xué)科的期刊文獻(xiàn)。(e)保存級(jí)別,主要分布在5個(gè)層級(jí)單元:5個(gè)學(xué)科(基礎(chǔ)學(xué)科、工程技術(shù)、農(nóng)業(yè)科技、醫(yī)療衛(wèi)生科技、信息科學(xué))的專利文獻(xiàn)。
4.3.4 四維度風(fēng)險(xiǎn)檢測
基于數(shù)字對(duì)象的三個(gè)屬性,加上持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)的元素,建立一個(gè)四維空間坐標(biāo)系,檢測并統(tǒng)計(jì)每個(gè)坐標(biāo)點(diǎn)上的數(shù)字對(duì)象集合在該坐標(biāo)點(diǎn)上持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。有下述一種類型:
{時(shí)間區(qū)間,學(xué)科類型,文獻(xiàn)類型,風(fēng)險(xiǎn)型元數(shù)據(jù)元素}。檢測并統(tǒng)計(jì)由持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)元素、以及數(shù)字對(duì)象的時(shí)間區(qū)間、學(xué)科類型、文獻(xiàn)類型三個(gè)屬性所建立的四維空間坐標(biāo)系中,每個(gè)坐標(biāo)點(diǎn)上的[時(shí)間區(qū)間,學(xué)科類型,文獻(xiàn)類型]所覆蓋的數(shù)字對(duì)象集合,在該坐標(biāo)點(diǎn)的持續(xù)完整性風(fēng)險(xiǎn)元數(shù)據(jù)元素風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的概率。檢測結(jié)果的可視化圖太大,省略。主要風(fēng)險(xiǎn)點(diǎn)有:(a)簽名信息,主要分布在48個(gè)層次單元:2000年之前的3個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科的期刊文獻(xiàn)、會(huì)議論文。(b)固定性信息,主要分布在16個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科的期刊文獻(xiàn)。(c)固定性檢查事件,主要分布在16個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科的期刊文獻(xiàn)。(d)信息摘要計(jì)算事件,主要分布在16個(gè)層次單元:1995年之前的2個(gè)時(shí)間區(qū)間的所有8個(gè)學(xué)科的期刊文獻(xiàn)。(e)保存級(jí)別,主要分布在35個(gè)層級(jí)單元:所有7個(gè)時(shí)間區(qū)間的5個(gè)學(xué)科(基礎(chǔ)學(xué)科、工程技術(shù)、農(nóng)業(yè)科技、醫(yī)療衛(wèi)生科技、信息科學(xué))的專利文獻(xiàn)。
4.4 檢測結(jié)果分析
風(fēng)險(xiǎn)檢測的目的在于為保存系統(tǒng)的維護(hù)提供依據(jù)。由上可知.檢測維度越高,產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對(duì)象集合越具體,風(fēng)險(xiǎn)識(shí)別的針對(duì)性越強(qiáng),越利于保存系統(tǒng)采取針對(duì)性的措施降低或規(guī)避風(fēng)險(xiǎn)。針對(duì)本實(shí)驗(yàn),持續(xù)完整性風(fēng)險(xiǎn)主要集中在下述5個(gè)風(fēng)險(xiǎn)點(diǎn)的相應(yīng)數(shù)字對(duì)象集合上:
(1)固定性信息、固定性檢查事件、信息摘要計(jì)算事件。這三個(gè)風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)的概率幾乎相同,且都集中在1995年之前各個(gè)學(xué)科的期刊文獻(xiàn)上。由此可以推測,該層次單元中一些數(shù)字對(duì)象收錄到保存系統(tǒng)時(shí),可能沒有執(zhí)行信息摘要計(jì)算事件,導(dǎo)致這些數(shù)字對(duì)象的信息摘要內(nèi)容缺失,固定性元數(shù)據(jù)中信息摘要元素內(nèi)容為空,固定性檢查事件因缺失對(duì)比的原始信息摘要基準(zhǔn)值而無法執(zhí)行??赡茉蚴?995年之前的期刊文獻(xiàn)的數(shù)字化版本大多是通過數(shù)字轉(zhuǎn)換獲得的,當(dāng)時(shí)可能沒有完全執(zhí)行對(duì)收錄數(shù)字對(duì)象計(jì)算信息摘要的保存政策。保存系統(tǒng)可對(duì)這類數(shù)字對(duì)象重新執(zhí)行信息摘要計(jì)算事件,并將計(jì)算結(jié)果賦值到對(duì)應(yīng)數(shù)字對(duì)象的固定性信息元數(shù)據(jù)的信息摘要元素中。
(2)簽名信息。該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對(duì)象主要集中在兩個(gè)區(qū)域:1995年之前各個(gè)學(xué)科的期刊文獻(xiàn)、2000之前的所有學(xué)科的會(huì)議論文。針對(duì)第一個(gè)區(qū)域的數(shù)字對(duì)象,由于與本節(jié)(1)中文獻(xiàn)集合相同,且發(fā)生風(fēng)險(xiǎn)的概率值也與本節(jié)(1)中的三個(gè)風(fēng)險(xiǎn)點(diǎn)比較一致,所以可以推測,該區(qū)域的數(shù)字對(duì)象至少也缺失信息摘要的描述值,可能的原因和保存系統(tǒng)可以采取的措施也同本節(jié)(1)。針對(duì)第二個(gè)區(qū)域的數(shù)字對(duì)象,可能原因是缺失密鑰信息或簽名值的記錄,致使無法計(jì)算新的信息摘要,也可能是新信息摘要與原始信息摘要比較結(jié)果不同;針對(duì)前者,保存系統(tǒng)可以進(jìn)一步核實(shí)數(shù)字對(duì)象的各項(xiàng)元數(shù)據(jù)元素的描述值,補(bǔ)充缺失內(nèi)容;針對(duì)后者,保存系統(tǒng)可進(jìn)一步分析導(dǎo)致數(shù)字對(duì)象發(fā)生改變的因素。
(3)保存級(jí)別。該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對(duì)象集中在所有時(shí)間區(qū)間的5個(gè)學(xué)科(基礎(chǔ)學(xué)科、工程技術(shù)、農(nóng)業(yè)科技、醫(yī)療衛(wèi)生科技、信息科學(xué))的專利文獻(xiàn)中。首先,在所有的8個(gè)學(xué)科中,其他3個(gè)學(xué)科(哲學(xué)與人文科學(xué)、社會(huì)科學(xué)、經(jīng)濟(jì)與管理科學(xué))很少產(chǎn)生專利文獻(xiàn),所以專利文獻(xiàn)集中在上述5個(gè)學(xué)科;其次,產(chǎn)生風(fēng)險(xiǎn)的可能原因是專利文獻(xiàn)數(shù)字對(duì)象設(shè)置的期望保存級(jí)別較高(可能是這類數(shù)字資源提交者 國家知識(shí)產(chǎn)權(quán)局的要求,也可能保存系統(tǒng)認(rèn)為這類數(shù)字資源的價(jià)值較高),而該風(fēng)險(xiǎn)型元數(shù)據(jù)的元素“保存級(jí)別的勝任狀態(tài)”的賦值為“需要”(意味著保存系統(tǒng)在實(shí)現(xiàn)該類數(shù)字資源的期望保存級(jí)別所需的支撐條件尚不足)。保存系統(tǒng)可以采取的措施是針對(duì)這類數(shù)字資源,完善保存環(huán)境,提升保存條件,滿足這類數(shù)字資源的保存需求。
5 檢測方法的局限性與改進(jìn)思路
基于檢測結(jié)果與樣本數(shù)字對(duì)象的對(duì)比分析,檢測方法還存在下述一些不足,并針對(duì)每項(xiàng)不足提出對(duì)應(yīng)的改進(jìn)思路。
(1)風(fēng)險(xiǎn)識(shí)別單元的問題。檢測方法中,風(fēng)險(xiǎn)的識(shí)別單元是元數(shù)據(jù)(即風(fēng)險(xiǎn)點(diǎn))。針對(duì)一件數(shù)字對(duì)象,一個(gè)元數(shù)據(jù)中任一檢測項(xiàng)目出現(xiàn)風(fēng)險(xiǎn),該檢測點(diǎn)就產(chǎn)生風(fēng)險(xiǎn),且有多個(gè)檢測項(xiàng)目出現(xiàn)風(fēng)險(xiǎn)時(shí),也歸并為該檢測點(diǎn)出現(xiàn)風(fēng)險(xiǎn)一次。比如“固定性信息”風(fēng)險(xiǎn)點(diǎn)設(shè)置了3個(gè)檢測項(xiàng)目,本實(shí)驗(yàn)中,有213件數(shù)字對(duì)象的“固定性信息”風(fēng)險(xiǎn)點(diǎn)產(chǎn)生了風(fēng)險(xiǎn),但是具體到每件數(shù)字對(duì)象,是原始信息摘要算法缺失?原始信息摘要丟失?還是數(shù)字對(duì)象在長期保存過程中發(fā)生了改變?是發(fā)生了上述一種情況、二種情況?還是三種情況同時(shí)發(fā)生了?無從知曉。導(dǎo)致保存系統(tǒng)難以采取準(zhǔn)確措施降低或規(guī)避風(fēng)險(xiǎn)。因?yàn)椴煌驅(qū)е碌娘L(fēng)險(xiǎn),應(yīng)采用的規(guī)避或降低方法不同。如前2個(gè)原因?qū)е碌娘L(fēng)險(xiǎn)的規(guī)避措施是補(bǔ)齊原始對(duì)象的信息摘要或算法即可;第3種原因?qū)е碌娘L(fēng)險(xiǎn),只有通過本地或異地備份恢復(fù)數(shù)字對(duì)象來解決。
檢測方法的改進(jìn)思路。將檢測方法中以元數(shù)據(jù)為風(fēng)險(xiǎn)識(shí)別單元,改變?yōu)橐詸z測項(xiàng)目為風(fēng)險(xiǎn)識(shí)別單元。這樣,可視化展現(xiàn)時(shí),不僅顯示每個(gè)元數(shù)據(jù)產(chǎn)生的持續(xù)完整性風(fēng)險(xiǎn)的數(shù)字對(duì)象總數(shù)量,還需顯示針對(duì)一個(gè)元數(shù)據(jù)的每個(gè)檢測項(xiàng)目上產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對(duì)象數(shù)量,很顯然,可視化展示圖也會(huì)隨著增大很多。
(2)統(tǒng)計(jì)對(duì)象的問題。檢測算法中,在一個(gè)風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的所有數(shù)字對(duì)象將形成一個(gè)集合,統(tǒng)計(jì)該集合中數(shù)字對(duì)象的個(gè)數(shù),形成一個(gè)數(shù)字,展示在可視化圖中相應(yīng)風(fēng)險(xiǎn)點(diǎn)上。但到底是哪些數(shù)字對(duì)象?無從知曉,因?yàn)槿笔?shù)字對(duì)象的清單。導(dǎo)致的結(jié)果是,無法針對(duì)具體數(shù)字對(duì)象采取風(fēng)險(xiǎn)規(guī)避或降低措施。如針對(duì)上述例子,本實(shí)驗(yàn)抽取的1萬件數(shù)字對(duì)象中,有213件產(chǎn)生“固定性信息”風(fēng)險(xiǎn),但沒有列出這231件數(shù)字對(duì)象的具體唯一標(biāo)識(shí)符,無法識(shí)別出具體的數(shù)字對(duì)象,也就無法實(shí)施風(fēng)險(xiǎn)規(guī)避或風(fēng)險(xiǎn)降低的措施。
檢測方法的改進(jìn)思路:在可視化展示圖中,加入超級(jí)鏈接,將每個(gè)風(fēng)險(xiǎn)點(diǎn)鏈接到具體產(chǎn)生該類風(fēng)險(xiǎn)的數(shù)字對(duì)象清單上,并設(shè)置打印功能,需要時(shí)可打印輸出。
(3)元數(shù)據(jù)的相關(guān)性問題。檢測方法中設(shè)計(jì)的不同元數(shù)據(jù)與持續(xù)完整性之間的相關(guān)性是不一樣的。比如數(shù)字對(duì)象方面,“固定性信息”和“簽名信息”與持續(xù)完整性直接相關(guān),相關(guān)性最大;“文件大小”“保存級(jí)別”“存儲(chǔ)位置”和“存儲(chǔ)介質(zhì)”與持續(xù)完整性都是間接相關(guān),相關(guān)性較?。槐4媸录矫?,“固定性檢查”和“信息摘要計(jì)算”也是直接相關(guān),但“介質(zhì)刷新”和“病毒檢測”則是間接相關(guān)。直接相關(guān)的元數(shù)據(jù)的檢測結(jié)果更準(zhǔn)確,間接相關(guān)的元數(shù)據(jù)的檢測結(jié)果都存在誤差,有的誤差很大。將檢測結(jié)果與樣本進(jìn)行對(duì)比,“固定性信息”和“簽名信息”的2個(gè)風(fēng)險(xiǎn)點(diǎn)的檢測準(zhǔn)確度都大于90%,“固定性檢查”和“信息摘要計(jì)算”的2個(gè)保存事件風(fēng)險(xiǎn)點(diǎn)的檢測準(zhǔn)確度也都大于90%,但其他間接相關(guān)的風(fēng)險(xiǎn)點(diǎn)檢測結(jié)果的準(zhǔn)確度都較低,在10%45%之間。這樣,對(duì)間接相關(guān)的元數(shù)據(jù)產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對(duì)象的識(shí)別所需工作量很大。
檢測方法的改進(jìn)思路:采用分級(jí)檢測,首先使用直接相關(guān)的元數(shù)據(jù)進(jìn)行檢測,將產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對(duì)象析出,剩余的數(shù)字對(duì)象再使用間接相關(guān)的元數(shù)據(jù)進(jìn)行檢測。由于后者的檢測樣本集已減小,所以識(shí)別所需的工作量也隨著降低。
6 檢測方法的使用
本文設(shè)計(jì)的檢測方法針對(duì)CNKI進(jìn)行了實(shí)驗(yàn),結(jié)果表明,除了存在上節(jié)列出的局限性外,其他方面均具有較好的適用性。CNKI保存的主要是文本型數(shù)字對(duì)象,針對(duì)其他類型保存系統(tǒng)(如多媒體數(shù)字對(duì)象的保存系統(tǒng))的實(shí)驗(yàn)沒有進(jìn)行。因此,使用該檢測方法(尤其是非文本型數(shù)字對(duì)象的保存系統(tǒng))時(shí),保存系統(tǒng)需注意下述事項(xiàng)。
(1)元數(shù)據(jù)的完善。本檢測方法的核心是持續(xù)完整性風(fēng)險(xiǎn)型元數(shù)據(jù)的設(shè)計(jì),檢測結(jié)果的準(zhǔn)確度和全面性依賴于所設(shè)計(jì)的元數(shù)據(jù)方案的科學(xué)性。因此使用該方法時(shí),保存系統(tǒng)應(yīng)該針對(duì)其保存的數(shù)字對(duì)象、保存目標(biāo)、保存政策、目標(biāo)用戶群體等實(shí)際,分析、改造和完善本文設(shè)計(jì)的元數(shù)據(jù)方案。
(2)檢測項(xiàng)目的完善。本檢測方法中,每個(gè)元數(shù)據(jù)均設(shè)置一定數(shù)量的檢測項(xiàng)目,對(duì)元數(shù)據(jù)的檢測是通過對(duì)其設(shè)置的檢測項(xiàng)目進(jìn)行檢測而實(shí)現(xiàn)的。因此,檢測結(jié)果的準(zhǔn)確度完全依賴于設(shè)置的檢測項(xiàng)目。使用該方法時(shí),保存系統(tǒng)應(yīng)在上述完善元數(shù)據(jù)的基礎(chǔ)上,結(jié)合實(shí)際,改造和完善每個(gè)元數(shù)據(jù)的檢測項(xiàng)目。
(3)維度的劃分。本檢測方法的實(shí)驗(yàn)樣品來自CNKI,因此實(shí)驗(yàn)中的維度劃分完全基于CNKI的實(shí)際。但應(yīng)用到其他保存系統(tǒng)時(shí),需根據(jù)其收錄數(shù)字對(duì)象的實(shí)際,重新劃分維度。
(4)動(dòng)態(tài)風(fēng)險(xiǎn)的監(jiān)控。本檢測方法僅局限在靜態(tài)風(fēng)險(xiǎn)的檢測,沒有涉及動(dòng)態(tài)風(fēng)險(xiǎn)的監(jiān)控??梢栽陟o態(tài)風(fēng)險(xiǎn)檢測的基礎(chǔ)上,從時(shí)間維度設(shè)置一個(gè)檢測頻率(如每天檢測一次),基于該頻率進(jìn)行持續(xù)的離散的靜態(tài)風(fēng)險(xiǎn)檢測,結(jié)果就形成了動(dòng)態(tài)風(fēng)險(xiǎn)的檢測。當(dāng)然,這種動(dòng)態(tài)非完全連續(xù),而是離散式的。實(shí)際上也無需完全連續(xù)檢測,因?yàn)楸4嫦到y(tǒng)中數(shù)字對(duì)象的狀態(tài)變化不可能完全連續(xù),基于一個(gè)合理的檢測頻率進(jìn)行離散式檢測即可。在此基礎(chǔ)上,可設(shè)置一個(gè)時(shí)間區(qū)間(如一個(gè)星期、一個(gè)月、一個(gè)季度或一年等),統(tǒng)計(jì)該時(shí)間區(qū)間內(nèi)動(dòng)態(tài)風(fēng)險(xiǎn)的檢測結(jié)果,實(shí)現(xiàn)包括集中趨勢、離散趨勢、分布形狀和時(shí)間趨勢等在內(nèi)的各種統(tǒng)計(jì),并以可視化形式呈現(xiàn),最終實(shí)現(xiàn)動(dòng)態(tài)風(fēng)險(xiǎn)的監(jiān)控。
風(fēng)險(xiǎn)檢測應(yīng)是數(shù)字保存的一項(xiàng)常規(guī)工作,也是規(guī)避和降低風(fēng)險(xiǎn)的基礎(chǔ)。本文僅對(duì)持續(xù)完整性風(fēng)險(xiǎn)設(shè)計(jì)了一種檢測方法。實(shí)際上,除了該類風(fēng)險(xiǎn)外,數(shù)字保存還存在其他類型的風(fēng)險(xiǎn)(比如可用性風(fēng)險(xiǎn)、真實(shí)性風(fēng)險(xiǎn)等),識(shí)別這些類型的風(fēng)險(xiǎn)并設(shè)計(jì)其元數(shù)據(jù)方案,并在此基礎(chǔ)上設(shè)計(jì)相應(yīng)類型風(fēng)險(xiǎn)的檢測方法,乃至進(jìn)一步整合為數(shù)字保存的全風(fēng)險(xiǎn)型元數(shù)據(jù)并進(jìn)行全風(fēng)險(xiǎn)的檢測方法設(shè)計(jì),是本課題的后續(xù)研究內(nèi)容。