張夏子鈺 周林興
摘要:大數(shù)據(jù)時(shí)代,檔案管理工作對(duì)象向數(shù)據(jù)態(tài)轉(zhuǎn)型,檔案數(shù)據(jù)質(zhì)量是檔案數(shù)據(jù)研究的關(guān)鍵課題之一。在解讀檔案數(shù)據(jù)質(zhì)量概念內(nèi)涵的基礎(chǔ)上,依據(jù)國(guó)內(nèi)外數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),劃分檔案數(shù)據(jù)形式、內(nèi)容、效用等評(píng)估維度,詳細(xì)闡述規(guī)范性、完整性、準(zhǔn)確性、安全性、時(shí)效性、可用性等檔案評(píng)估指標(biāo)。提出檔案數(shù)據(jù)收集和創(chuàng)建集成化、存儲(chǔ)和備份協(xié)同化、開(kāi)發(fā)和利用知識(shí)化等優(yōu)化路徑,從而預(yù)防和修正檔案數(shù)據(jù)質(zhì)量問(wèn)題,提高檔案數(shù)據(jù)質(zhì)量。
關(guān)鍵詞:大數(shù)據(jù) 檔案數(shù)據(jù) 數(shù)據(jù)質(zhì)量
Abstract: In the era of big data, the objects of ar? chive management have been transforming into data so that archival data quality becomes one of the cru? cial issues of archival data research. Based on inter? preting archival data quality, this paper presents three assessment dimensions of archival data quali? ty, which are form, content and utility according to the domestic and international data quality standards, and elaborates six assessment indexes of archival da? ta quality including standardization, completeness, ac? curacy, security, timeliness and usability. Further? more, this paper proposes four suggestions to pre? vent and correct archival data quality problems so as to improve archival data quality, which are integrating archival data resources when collecting and creating archival data, employing several techniques when or? ganizing and keeping archival data, providing archival knowledge services when developing and utilizing ar? chival data.
Keywords: Big data; Archival data; Data quality
人類歷史上從未有哪個(gè)時(shí)代像今天一樣產(chǎn)生如此海量的數(shù)據(jù),數(shù)據(jù)量正在以前所未有的速度增長(zhǎng),數(shù)據(jù)表現(xiàn)形式千變?nèi)f化,我們已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代。2021年12月,中央網(wǎng)絡(luò)安全和信息化委員會(huì)印發(fā)《“十四五”國(guó)家信息化規(guī)劃》,對(duì)我國(guó)“十四五”時(shí)期信息化發(fā)展做出部署安排,指出大數(shù)據(jù)在行政管理、社會(huì)治理、產(chǎn)業(yè)發(fā)展等方面的應(yīng)用潛力。[1]2021年6月,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》,明確提出“加強(qiáng)檔案資源質(zhì)量管控”“加快檔案資源數(shù)字轉(zhuǎn)型”“推動(dòng)檔案全面納入國(guó)家大數(shù)據(jù)戰(zhàn)略”。[2]大數(shù)據(jù)的真正意義在于大價(jià)值。單純數(shù)據(jù)量的累積不能滿足人們對(duì)大數(shù)據(jù)的期待,只有建立適當(dāng)?shù)哪P停褂煤线m的技術(shù)工具處理大量的數(shù)據(jù),發(fā)現(xiàn)并利用數(shù)據(jù)背后的信息,才能實(shí)現(xiàn)大數(shù)據(jù)的全部?jī)r(jià)值。檔案數(shù)據(jù)具備檔案的基本屬性和基本價(jià)值,[3]與其他數(shù)據(jù)相比,是更加真實(shí)可靠的決策依據(jù)。數(shù)據(jù)質(zhì)量對(duì)決策質(zhì)量具有決定性作用,[4]檔案數(shù)據(jù)質(zhì)量是檔案數(shù)據(jù)規(guī)范管理與有效開(kāi)發(fā)的基礎(chǔ),[5]所有數(shù)據(jù)管理的原則都應(yīng)有助于提高數(shù)據(jù)質(zhì)量,[6]需重視檔案數(shù)據(jù)質(zhì)量管理。
將“檔案數(shù)據(jù)質(zhì)量”分解為“檔案數(shù)據(jù)”與“數(shù)據(jù)質(zhì)量”有助于理解“檔案數(shù)據(jù)質(zhì)量”。國(guó)內(nèi)檔案界最初使用“檔案數(shù)據(jù)”一詞,主要是指根據(jù)國(guó)家有關(guān)標(biāo)準(zhǔn)對(duì)檔案進(jìn)行著錄、標(biāo)引并錄入檔案計(jì)算機(jī)檢索系統(tǒng),轉(zhuǎn)換成機(jī)讀形式的檔案元數(shù)據(jù)。[7]隨著大數(shù)據(jù)時(shí)代的正式到來(lái),以云計(jì)算、人工智能等為代表的新一代信息技術(shù)讓檔案界開(kāi)始關(guān)注檔案部門(mén)保管和產(chǎn)生的數(shù)據(jù)資源,[8-10]也促使檔案界思考外部數(shù)據(jù)是否具有檔案屬性。[11-13]目前檔案數(shù)據(jù)的概念還沒(méi)有形成統(tǒng)一的認(rèn)識(shí),不同學(xué)者從不同角度進(jìn)行了闡述。[14-16]基于現(xiàn)有研究中對(duì)檔案數(shù)據(jù)的描述,本文認(rèn)為檔案數(shù)據(jù)既包括檔案內(nèi)容數(shù)據(jù)、檔案目錄數(shù)據(jù)等與檔案本身直接相關(guān)的數(shù)據(jù),也包括檔案利用數(shù)據(jù)等檔案管理過(guò)程中積累的數(shù)據(jù)。此外,網(wǎng)絡(luò)行為數(shù)據(jù)由以新媒體、網(wǎng)頁(yè)為來(lái)源的各種非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成,這類數(shù)據(jù)超越了檔案學(xué)科對(duì)檔案數(shù)據(jù)的固有理解,其管理還沒(méi)有被納入檔案部門(mén)的職能范疇,但網(wǎng)絡(luò)行為信息符合檔案原始記錄的本質(zhì)屬性,網(wǎng)絡(luò)行為數(shù)據(jù)也屬于檔案數(shù)據(jù)。GIGO原則(Garbage In Garbage Out)反映出數(shù)據(jù)質(zhì)量決定信息質(zhì)量,即輸入的數(shù)據(jù)是低質(zhì)量的,則最終輸出的信息也是無(wú)用的。更為完整的思路是,輸入數(shù)據(jù)的高質(zhì)量是信息用戶得到高質(zhì)量信息的必要不充分條件,低質(zhì)量的數(shù)據(jù)不可能得到高質(zhì)量的信息,但受到信息用戶數(shù)據(jù)素養(yǎng)的影響,利用高質(zhì)量數(shù)據(jù)的結(jié)果未必就是得到高質(zhì)量的信息。在大數(shù)據(jù)視角下,數(shù)據(jù)質(zhì)量管理的目的主要是為了應(yīng)用,因此數(shù)據(jù)質(zhì)量的內(nèi)涵傾向于以結(jié)果為導(dǎo)向。[17]數(shù)據(jù)質(zhì)量指“在指定條件下使用時(shí),數(shù)據(jù)的特性滿足明確的和隱含的要求的程度”。[18]
ISO 8000數(shù)據(jù)質(zhì)量系列標(biāo)準(zhǔn)填補(bǔ)了ISO 9000質(zhì)量管理系列標(biāo)準(zhǔn)和數(shù)據(jù)產(chǎn)品之間的空白,是國(guó)際認(rèn)可的全球性數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。我國(guó)2018年發(fā)布的國(guó)家標(biāo)準(zhǔn)《信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》(GB/T 36344—2018)規(guī)定了數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)的框架,是目前國(guó)內(nèi)最權(quán)威的數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。檔案領(lǐng)域還沒(méi)有專門(mén)的數(shù)據(jù)質(zhì)量管理文件,本研究參考ISO 8000、GB/T 36344—2018,根據(jù)檔案數(shù)據(jù)質(zhì)量的概念內(nèi)涵,提出檔案數(shù)據(jù)質(zhì)量評(píng)估框架,從形式、內(nèi)容和效用三個(gè)維度梳理說(shuō)明檔案數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)。檔案數(shù)據(jù)形式的評(píng)估,是指針對(duì)檔案數(shù)據(jù)的外在形式表現(xiàn)對(duì)檔案數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估;檔案數(shù)據(jù)內(nèi)容的評(píng)估,是指針對(duì)檔案數(shù)據(jù)本身的具體內(nèi)容對(duì)檔案數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估;檔案數(shù)據(jù)效用的評(píng)估,是指針對(duì)檔案數(shù)據(jù)能夠提供利用者使用的程度對(duì)檔案數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,具體如表1所示。
(一)檔案數(shù)據(jù)形式維度
1.規(guī)范性。規(guī)范性用于評(píng)估檔案數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)值域等是否符合國(guó)內(nèi)外標(biāo)準(zhǔn)及系統(tǒng)預(yù)設(shè)方案的各項(xiàng)規(guī)定。2009年、2014年、2017年國(guó)家檔案局分別發(fā)布《文書(shū)類電子文件元數(shù)據(jù)方案》(DA/T 46—2009)、《照片類電子檔案元數(shù)據(jù)方案》(DA/ T 54—2014)和《錄音錄像類電子檔案元數(shù)據(jù)方案》(DA/ T 63—2017),規(guī)定了電子檔案在檔案管理過(guò)程中元數(shù)據(jù)設(shè)計(jì)、捕獲、著錄的一般要求,以及電子檔案元數(shù)據(jù)實(shí)體和元數(shù)據(jù)構(gòu)成。對(duì)復(fù)雜的電子檔案元數(shù)據(jù)的抽取和表達(dá)需要面向語(yǔ)義和關(guān)聯(lián)的規(guī)范作為基礎(chǔ),因而元數(shù)據(jù)規(guī)范普遍采用XML作為其默認(rèn)描述格式。[19]《檔案關(guān)系型數(shù)據(jù)庫(kù)轉(zhuǎn)換為XML文件的技術(shù)規(guī)范》(DA/T 57—2014)面向檔案數(shù)據(jù)對(duì)象進(jìn)行規(guī)范管理,旨在實(shí)現(xiàn)檔案數(shù)據(jù)庫(kù)記錄格式開(kāi)放且不依賴軟硬件保存。
2.完整性。完整性用于評(píng)估檔案數(shù)據(jù)是否保持統(tǒng)一整體的狀態(tài),數(shù)據(jù)實(shí)體和數(shù)據(jù)屬性等是否缺失。數(shù)字時(shí)代的“新來(lái)源觀”突破了檔案來(lái)源就是檔案的形成者和形成機(jī)構(gòu)的理解,將來(lái)源原則擴(kuò)展為以形成文件的個(gè)人、團(tuán)體或組織的職能、過(guò)程及活動(dòng)為中心。除檔案內(nèi)容外,檔案的背景和結(jié)構(gòu)信息也成為檔案不可缺少的部分,完整性對(duì)保證檔案真實(shí)可信更加具有重要意義。檔案數(shù)據(jù)語(yǔ)義由遵循一定語(yǔ)法的形式化語(yǔ)言來(lái)表達(dá),為保證檔案內(nèi)容、背景和結(jié)構(gòu)的理解,在檔案管理過(guò)程中需要維護(hù)檔案數(shù)據(jù)語(yǔ)義完整。
(二)檔案數(shù)據(jù)內(nèi)容維度
1.準(zhǔn)確性。準(zhǔn)確性用于評(píng)估檔案數(shù)據(jù)是否客觀、真實(shí)地反映檔案記錄的事實(shí)。準(zhǔn)確性是決定檔案數(shù)據(jù)價(jià)值大小的關(guān)鍵屬性,如若檔案數(shù)據(jù)缺乏準(zhǔn)確性,檔案將不再能夠作為人類社會(huì)實(shí)踐的證明,進(jìn)而失去可信度。檔案數(shù)據(jù)的準(zhǔn)確性不等同于內(nèi)容的正確性,錯(cuò)誤信息的產(chǎn)生和傳播也是真實(shí)發(fā)生的社會(huì)實(shí)踐活動(dòng),應(yīng)予以記錄。同時(shí),由于混淆人們判斷的信息的存在通常另有目的和意圖,了解錯(cuò)誤信息的生命周期有助于完整還原真實(shí)情況,更加貼近社會(huì)現(xiàn)實(shí)。檔案數(shù)據(jù)的準(zhǔn)確性既包括收集或創(chuàng)建的原始數(shù)據(jù)的準(zhǔn)確性,也包括經(jīng)過(guò)存儲(chǔ)、傳輸、運(yùn)行等處理過(guò)程的準(zhǔn)確性。
2.安全性。安全性用于評(píng)估檔案數(shù)據(jù)內(nèi)容是否涉及個(gè)人隱私和國(guó)家秘密,是否采取必要措施確保數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài)。在數(shù)據(jù)價(jià)值被不斷強(qiáng)調(diào)的當(dāng)下,數(shù)據(jù)泄露或黑客攻擊等數(shù)據(jù)安全問(wèn)題的破壞性也愈發(fā)不容輕視。2021年6月通過(guò)的《中華人民共和國(guó)數(shù)據(jù)安全法》第二十一條提出:“建立數(shù)據(jù)分類分級(jí)保護(hù)制度,根據(jù)數(shù)據(jù)在經(jīng)濟(jì)社會(huì)發(fā)展中的重要程度,以及一旦遭到篡改、破壞、泄露或者非法獲取、非法利用,對(duì)國(guó)家安全、公共利益或者個(gè)人、組織合法權(quán)益造成的危害程度,對(duì)數(shù)據(jù)實(shí)行分類分級(jí)保護(hù)?!睓n案數(shù)據(jù)不僅涉及個(gè)人隱私和組織機(jī)密,還可能關(guān)系到國(guó)家秘密和社會(huì)穩(wěn)定,處于整個(gè)數(shù)據(jù)體系中的較高保護(hù)級(jí)別,有必要設(shè)定具有針對(duì)性的安全保護(hù)制度管理檔案數(shù)據(jù)。
(三)檔案數(shù)據(jù)效用維度
1.時(shí)效性。時(shí)效性用于評(píng)估檔案數(shù)據(jù)是否隨目標(biāo)資源的使用而及時(shí)發(fā)生變化。檔案數(shù)據(jù)在檔案管理業(yè)務(wù)流程中不是固定不變的,通常要經(jīng)過(guò)多次格式轉(zhuǎn)換、網(wǎng)絡(luò)傳輸、導(dǎo)入導(dǎo)出等操作,在數(shù)據(jù)更新不及時(shí)的情況下,會(huì)出現(xiàn)所讀取的數(shù)據(jù)已被修改而該數(shù)據(jù)卻沒(méi)有得到相對(duì)應(yīng)更新的情況,形成“臟數(shù)據(jù)”。檔案數(shù)據(jù)的時(shí)效性在時(shí)間段上,表現(xiàn)為一定時(shí)間范圍內(nèi)檔案數(shù)據(jù)記錄數(shù)量或頻率分布符合業(yè)務(wù)需求的程度;在時(shí)間點(diǎn)上,表現(xiàn)為基于時(shí)間戳的檔案數(shù)據(jù)記錄數(shù)量、頻率分布、響應(yīng)時(shí)間符合業(yè)務(wù)需求的程度;在時(shí)序性上,表現(xiàn)為檔案數(shù)據(jù)元素之間的相對(duì)時(shí)序關(guān)系。
2.可用性??捎眯杂糜谠u(píng)估檔案數(shù)據(jù)是否能夠被獲取并被理解。由于政府?dāng)?shù)據(jù)開(kāi)放的社會(huì)需求和大數(shù)據(jù)的應(yīng)用,檔案開(kāi)放成為一種新的檔案治理理念,檔案數(shù)據(jù)開(kāi)放成為歷史發(fā)展的必然趨勢(shì)。我國(guó)《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》提出“檔案開(kāi)放力度明顯加大”的發(fā)展目標(biāo),將“加快推進(jìn)檔案開(kāi)放”作為“十四五”期間檔案事業(yè)發(fā)展的主要任務(wù)之一。[20]檔案數(shù)據(jù)開(kāi)放是檔案機(jī)構(gòu)服務(wù)升級(jí)的重要舉措,在確保數(shù)據(jù)集和數(shù)據(jù)接口的開(kāi)放種類、開(kāi)放格式、開(kāi)放權(quán)限具有系統(tǒng)規(guī)定的條件下,可考慮開(kāi)放已經(jīng)度過(guò)封閉期并且不在保密范圍內(nèi)的檔案數(shù)據(jù)。同時(shí),檔案數(shù)據(jù)的組織開(kāi)發(fā)程度直接影響著用戶對(duì)數(shù)據(jù)質(zhì)量的感受,間接影響數(shù)據(jù)發(fā)揮的作用和產(chǎn)生的結(jié)果。
從檔案數(shù)據(jù)管理流程的角度,可將檔案數(shù)據(jù)形成產(chǎn)生到價(jià)值發(fā)揮的過(guò)程劃分為檔案數(shù)據(jù)收集和創(chuàng)建、檔案數(shù)據(jù)存儲(chǔ)和備份、檔案數(shù)據(jù)開(kāi)發(fā)和利用等三個(gè)階段。檔案數(shù)據(jù)管理過(guò)程中的諸多因素都可能導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題,數(shù)據(jù)質(zhì)量問(wèn)題的表現(xiàn)可能具有延遲性。檔案數(shù)據(jù)質(zhì)量管理應(yīng)當(dāng)貫穿于檔案數(shù)據(jù)管理流程始終,并在各階段有不同側(cè)重。
(一)檔案數(shù)據(jù)收集和創(chuàng)建:集成化
以是否需要對(duì)檔案進(jìn)行數(shù)據(jù)化加工為區(qū)別,檔案數(shù)據(jù)資源整合存在收集和創(chuàng)建兩種方式。大數(shù)據(jù)是一種新的價(jià)值觀和方法論,全數(shù)據(jù)模式要求記錄、儲(chǔ)存和分析的數(shù)據(jù)從部分樣本擴(kuò)展到所掌握的全體數(shù)據(jù),[21]信息資源管理主體走向多元化。屬于檔案收集范圍的數(shù)據(jù),在成為檔案之前,在各種平臺(tái)和系統(tǒng)中大量形成和運(yùn)轉(zhuǎn),分散保管在各個(gè)部門(mén)和機(jī)構(gòu)中,由于管理體制、軟硬件系統(tǒng)、技術(shù)標(biāo)準(zhǔn)的差異,部門(mén)和行業(yè)間數(shù)據(jù)格式異構(gòu)、語(yǔ)義異構(gòu)、系統(tǒng)異構(gòu)。檔案數(shù)據(jù)收集和創(chuàng)建要突破單一主體界限,在跨層級(jí)、跨系統(tǒng)、跨部門(mén)、跨區(qū)域間實(shí)現(xiàn)資源整合,[22]對(duì)數(shù)字檔案進(jìn)行結(jié)構(gòu)化、顆?;幚?,使之成為標(biāo)準(zhǔn)化數(shù)據(jù)對(duì)象。進(jìn)行集成化預(yù)處理能夠打通不同平臺(tái)間由于不相互共享數(shù)據(jù)而形成的孤立狀態(tài),解決多個(gè)數(shù)據(jù)源中字段間的語(yǔ)義差異、結(jié)構(gòu)差異,以及關(guān)聯(lián)關(guān)系、數(shù)據(jù)冗余等問(wèn)題。[23]
(二)檔案數(shù)據(jù)存儲(chǔ)和備份:協(xié)同化
檔案數(shù)據(jù)長(zhǎng)期保存是一項(xiàng)專業(yè)性強(qiáng)的復(fù)雜工作,某種單一的技術(shù)不可能完成所有任務(wù),而是需要多種技術(shù)和管理措施配合使用。[24]區(qū)塊鏈技術(shù)集合了分布式數(shù)據(jù)存儲(chǔ)、點(diǎn)對(duì)點(diǎn)傳輸、共識(shí)機(jī)制、加密算法等多重技術(shù),數(shù)據(jù)一旦進(jìn)入?yún)^(qū)塊鏈,在多個(gè)節(jié)點(diǎn)的共同監(jiān)督維護(hù)下,被篡改的可能性極大降低,從而能夠保障檔案數(shù)據(jù)的真實(shí)性。云存儲(chǔ)是以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng),對(duì)檔案部門(mén)來(lái)說(shuō),云存儲(chǔ)可用作分布式數(shù)據(jù)備份云庫(kù)房;對(duì)用戶來(lái)說(shuō),云存儲(chǔ)是使用整個(gè)云存儲(chǔ)系統(tǒng)帶來(lái)的一種超越存儲(chǔ)設(shè)備實(shí)體的數(shù)據(jù)訪問(wèn)服務(wù)。2021年6月,安徽寶葫蘆信息科技集團(tuán)股份有限公司依托所承擔(dān)的國(guó)家檔案局科技計(jì)劃項(xiàng)目,研發(fā)推出國(guó)內(nèi)首款以區(qū)塊鏈為核心技術(shù)的檔案一體機(jī)。[25]中國(guó)石油化工集團(tuán)有限公司從2017年開(kāi)始關(guān)注到區(qū)塊鏈技術(shù)對(duì)電子檔案真實(shí)性保障的優(yōu)勢(shì),現(xiàn)已基于中國(guó)石化云平臺(tái)建設(shè),將電子文件通過(guò)非結(jié)構(gòu)化存儲(chǔ)中心進(jìn)行管理,并將電子文件歸檔系統(tǒng)與企業(yè)長(zhǎng)城鏈同步對(duì)接,實(shí)現(xiàn)招投標(biāo)電子文件單套制管理。[26]
(三)檔案數(shù)據(jù)開(kāi)發(fā)和利用:知識(shí)化
大數(shù)據(jù)環(huán)境中的數(shù)據(jù)質(zhì)量具有動(dòng)態(tài)性,與應(yīng)用情境和任務(wù)類型密切相關(guān),從數(shù)據(jù)的客觀屬性向主體感知視角轉(zhuǎn)換。隨著人們對(duì)現(xiàn)代信息技術(shù)的深入應(yīng)用,用戶對(duì)檔案服務(wù)的期望超越了單向信息傳遞的傳統(tǒng)展覽和“關(guān)鍵詞輸入、列表式呈現(xiàn)”的常規(guī)檢索。迫切需要進(jìn)行檔案信息組織,提供檔案知識(shí)服務(wù)。檔案學(xué)界已經(jīng)開(kāi)始了檔案數(shù)據(jù)知識(shí)化開(kāi)發(fā)利用的實(shí)踐探索。為切實(shí)推動(dòng)口述歷史檔案資源深度開(kāi)發(fā),構(gòu)建口述歷史檔案資源知識(shí)發(fā)現(xiàn)模型,引入南京大學(xué)抗戰(zhàn)老兵口述資料中心的數(shù)據(jù)源進(jìn)行可視化展示;[27]設(shè)計(jì)名人檔案知識(shí)聚合模式,對(duì)名人檔案實(shí)現(xiàn)知識(shí)關(guān)聯(lián)聚合,以吳寶康檔案為例實(shí)現(xiàn)可視化呈現(xiàn);[28]珍貴檔案文獻(xiàn)遺產(chǎn)承載民族記憶,針對(duì)水書(shū)檔案文獻(xiàn)構(gòu)建本體,并通過(guò)知識(shí)推理完善水書(shū)檔案實(shí)例庫(kù)。[29]檔案數(shù)據(jù)是最細(xì)粒度的檔案形式,應(yīng)當(dāng)梳理檔案數(shù)據(jù)要素與語(yǔ)義關(guān)系,構(gòu)建檔案知識(shí)本體模型,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行檔案知識(shí)組織和構(gòu)建關(guān)聯(lián)數(shù)據(jù)集,最終構(gòu)建檔案知識(shí)庫(kù)和檔案知識(shí)服務(wù)平臺(tái),提供知識(shí)圖譜、可視化、虛擬現(xiàn)實(shí)等檔案知識(shí)服務(wù)形式。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)概念日益流行,數(shù)據(jù)的戰(zhàn)略資源地位凸顯,檔案信息化發(fā)展至檔案數(shù)據(jù)化。數(shù)據(jù)質(zhì)量管理貫穿檔案數(shù)據(jù)管理的整個(gè)過(guò)程,是質(zhì)量分析、發(fā)現(xiàn)問(wèn)題、解決問(wèn)題、質(zhì)量反饋的不斷反復(fù)的過(guò)程,尚未有任何一種方法能畢其功于一役。面對(duì)技術(shù)浪潮,檔案部門(mén)應(yīng)主動(dòng)作為,提高檔案數(shù)據(jù)治理能力和治理水平,合理運(yùn)用現(xiàn)代信息技術(shù)為檔案之治引入新范式、創(chuàng)造新工具、構(gòu)建新模式。
*本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目“國(guó)家大數(shù)據(jù)戰(zhàn)略背景下檔案數(shù)據(jù)質(zhì)量?jī)?yōu)化控制研究”(項(xiàng)目編號(hào):21BTQ016)的階段性成果。
注釋及參考文獻(xiàn):
[1]中共中央網(wǎng)絡(luò)安全和信息化委員會(huì).“十四五”國(guó)家信息化規(guī)劃[EB/OL].(2021-12-27[2023-03-01].http://www. cac.gov.cn/2021-12/27/c_1642205314518676.htm.
[2] [20]中共中央辦公廳,國(guó)務(wù)院辦公廳.中辦國(guó)辦印發(fā)《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06-09)[2023-03-01]. https : //www. saac. gov. cn /daj /toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[3] [14]金波,添志鵬.檔案數(shù)據(jù)內(nèi)涵與特征探析[J].檔案學(xué)通訊,2020(3):4-11.
[4] LEE Y W, PIPINO L L, FUNK J D, et al. Journey to data quality[M]. Cambridge:The MIT Press, 2006:8.
[5]金波,楊鵬.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)治理研究[J].檔案學(xué)研究,2020(4):29-37.
[6]DAMA國(guó)際.DAMA數(shù)據(jù)管理知識(shí)體系指南[M].DA? MA中國(guó)分會(huì)翻譯組,譯.2版.北京:機(jī)械工業(yè)出版社,2020:4.
[7]馮惠玲,李華.檔案工作現(xiàn)代化的重大課題——論檔案計(jì)算機(jī)檢索的數(shù)據(jù)準(zhǔn)備[J].檔案學(xué)通訊,1992(1):41-45.
[8]陶水龍.大數(shù)據(jù)視野下檔案信息化建設(shè)的新思考[J].檔案學(xué)研究,2017,No.156(3):93-99.
[9]錢(qián)毅.數(shù)據(jù)態(tài)環(huán)境中數(shù)字檔案對(duì)象保存問(wèn)題與策略分析[J].檔案學(xué)通訊,2019(4):40-47.
[10]周林興,崔云萍.大數(shù)據(jù)視域下檔案數(shù)據(jù)質(zhì)量控制實(shí)現(xiàn)路徑探析[J].檔案學(xué)通訊,2022,265(3):39-47.
[11]于英香.檔案大數(shù)據(jù)研究熱的冷思考[J].檔案學(xué)通訊,2015(2):4-8.
[12]鄭金月.關(guān)于檔案與大數(shù)據(jù)關(guān)系問(wèn)題的思辨[J].檔案學(xué)研究,2016,153(6):37-40.
[13]何嘉蓀,譚建月.檔案概念再認(rèn)識(shí)——大數(shù)據(jù)引起的思考[J].檔案與建設(shè),2017(8):4-6;10.
[15]陳雪燕,于英香.從檔案管理走向檔案數(shù)據(jù)管理:大數(shù)據(jù)時(shí)代下的檔案管理范式轉(zhuǎn)型[J].山西檔案,2019(5):24-32.
[16]趙生輝,胡瑩.檔案數(shù)據(jù)基因系統(tǒng):概念、機(jī)理與實(shí)踐[J].檔案學(xué)研究,2021,178(1):40-48.
[17]孫俐麗,袁勤儉.數(shù)據(jù)質(zhì)量研究述評(píng):比較視角[J].農(nóng)業(yè)圖書(shū)情報(bào),2019,31(7):4-13.
[18]金波,周楓,楊鵬.檔案數(shù)據(jù)研究進(jìn)展與研究題域[J].情報(bào)科學(xué),2021,39(11):187-193.
[19]錢(qián)毅,馬林青.基于三態(tài)視角的檔案描述標(biāo)準(zhǔn)特征及演進(jìn)脈絡(luò)分析[J].檔案學(xué)通訊,2021(5):40-48.
[21]邁爾-舍恩伯格,庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:39.
[22]金波,陳堅(jiān),李佳男,等.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)資源整合探究[J].檔案與建設(shè),2022,405(9):18-23.
[23]孟鈺瀟,周西平.基于數(shù)據(jù)生命周期的公安情報(bào)數(shù)據(jù)治理方法[J].情報(bào)探索,2021(10):33-40.
[24]劉越男,吳云鵬.基于區(qū)塊鏈的數(shù)字檔案長(zhǎng)期保存:既有探索及未來(lái)發(fā)展[J].檔案學(xué)通訊,2018(6):44-53.
[25]王春艷.區(qū)塊鏈智慧檔案一體機(jī)發(fā)布會(huì)在北京舉行[N/ OL].中國(guó)檔案報(bào),2021- 06- 24(2) [2023- 3- 10].http:// www. zgdazxw. com. cn / news / 2021- 06/25/content_ 322284.htm.
[26]戰(zhàn)立秋.物資裝備招投標(biāo)電子檔案國(guó)家試點(diǎn)項(xiàng)目通過(guò)驗(yàn)收[N/OL].中國(guó)石化報(bào),2022-08-05(1)[2023-03-10]. http://enews.sinopecnews.com.cn/zgshb/html/2022-08/ 05/node_2.htm.
[27]鄧君,王阮.數(shù)字人文視域下口述歷史檔案資源知識(shí)發(fā)現(xiàn)模型構(gòu)建[J].檔案學(xué)研究,2022,184(1):110-116.
[28]牛力,展超凡,高晨翔,等.人物事件導(dǎo)向的多模態(tài)檔案資源知識(shí)聚合模式研究[J].檔案學(xué)通訊,2021,260(4):36-44.
[29]張偉民,宋雪雁,邢閣.水書(shū)檔案文獻(xiàn)遺產(chǎn)本體構(gòu)建與知識(shí)推理研究[J].蘭臺(tái)世界,2022(12):31-36.
作者單位:1.武漢大學(xué)信息管理學(xué)院2.武漢大學(xué)圖書(shū)情報(bào)國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心3.上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院