国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時代檔案數(shù)據(jù)質(zhì)量控制:現(xiàn)狀、機制與優(yōu)化路徑

2022-03-29 13:42周林興林凱
檔案與建設(shè) 2022年2期
關(guān)鍵詞:質(zhì)量優(yōu)化大數(shù)據(jù)時代

周林興 林凱

摘 要:檔案數(shù)據(jù)是大數(shù)據(jù)時代經(jīng)濟社會發(fā)展的重要信息資源,進(jìn)行檔案數(shù)據(jù)質(zhì)量控制研究有助于促進(jìn)檔案治理能力現(xiàn)代化的提升。通過調(diào)查分析可知,檔案數(shù)據(jù)存有政策法規(guī)缺失、數(shù)量巨大結(jié)構(gòu)復(fù)雜、數(shù)據(jù)實踐處于起步階段等現(xiàn)狀?;诂F(xiàn)狀特征構(gòu)建了檔案數(shù)據(jù)質(zhì)量控制機制:數(shù)據(jù)監(jiān)督管控機制、技術(shù)保障機制、質(zhì)量評估機制,并提出增強檔案數(shù)據(jù)質(zhì)量控制頂層設(shè)計,筑造檔案數(shù)據(jù)質(zhì)量技術(shù)保護屏障,構(gòu)建檔案數(shù)據(jù)質(zhì)量評估方法體系等優(yōu)化路徑。

關(guān)鍵詞:大數(shù)據(jù)時代;檔案數(shù)據(jù);數(shù)據(jù)質(zhì)量控制;質(zhì)量優(yōu)化

分類號:G273

Quality control of archival data in the era of big data: Current situation, Mechanism and Optimization path

Zhou Linxing, Lin Kai

( School of Cultural Heritage and Information Management Shanghai University, Shanghai 200444 )

Abstract: Archival data is an important information resource for economic and social development in the era of big data. The research on archival data quality control will help to promote the modernization of archival management ability. Through investigation and analysis, it can be seen that there are some current situations in archival data, such as lack of policies and regulations, huge quantity and complex structure, data practice in the initial stage and so on. Based on the current characteristics, this paper constructs the archives data quality control mechanism: data Supervision and control mechanism, technical guarantee mechanism and quality evaluation mechanism. Meanwhile it proposes to strengthen the supervision and control of archival data quality, building technical guarantee barriers for archival data quality, construction of archives data quality evaluation method system and other optimization paths.

Keywords: Big data era; Archival data; Data quality control; Quality optimization

1 引 言

大數(shù)據(jù)時代,隨著檔案管理數(shù)字轉(zhuǎn)型不斷推進(jìn)及數(shù)據(jù)處理技術(shù)應(yīng)用推廣,檔案數(shù)據(jù)管理逐漸成為檔案工作的新常態(tài)。然而,檔案部門仍然存在嚴(yán)重的重數(shù)量輕質(zhì)量的管理思想,數(shù)據(jù)污染、數(shù)據(jù)異構(gòu)、數(shù)據(jù)安全、數(shù)據(jù)孤島等問題突出。[1]究其原因,主要在于檔案數(shù)據(jù)質(zhì)量控制缺失,難以適應(yīng)海量檔案數(shù)據(jù)管理需求?,F(xiàn)階段,迫切需要開展關(guān)于檔案數(shù)據(jù)質(zhì)量控制的研究,實現(xiàn)檔案數(shù)據(jù)規(guī)范化、標(biāo)準(zhǔn)化管控,推動檔案數(shù)據(jù)朝著善治方向發(fā)展。

檔案數(shù)據(jù)屬于檔案信息資源范疇,具備檔案的基本屬性,既包括檔案部門已經(jīng)掌握的各類數(shù)字化檔案資源、電子檔案等,還包括具有長久保存價值但還沒有納入檔案部門保管范圍的數(shù)據(jù),以及檔案管理業(yè)務(wù)過程中產(chǎn)生的各類數(shù)據(jù)等。[2]檔案數(shù)據(jù)質(zhì)量控制,即在檔案部門主導(dǎo)下聯(lián)合業(yè)務(wù)部門、數(shù)據(jù)管理部門、檔案外包機構(gòu)等,在相關(guān)法律法規(guī)、標(biāo)準(zhǔn)規(guī)范指引下,采用一定手段對處在形成、運行、傳輸、保管、利用等過程中的檔案數(shù)據(jù)進(jìn)行管控,使其保持穩(wěn)定的質(zhì)量效果,符合檔案工作需求。

學(xué)界對檔案數(shù)據(jù)質(zhì)量控制研究已有初步探索,主要集中于三個方面。一是對檔案數(shù)據(jù)質(zhì)量控制的認(rèn)知。檔案數(shù)據(jù)質(zhì)量控制是檔案規(guī)范管理的基礎(chǔ),[3]是大數(shù)據(jù)時代維護檔案數(shù)據(jù)質(zhì)量的關(guān)鍵,要采取一定的方式和手段加以優(yōu)化。[4]二是從頂層設(shè)計上提出檔案數(shù)據(jù)質(zhì)量控制的規(guī)范。從構(gòu)建檔案部門數(shù)據(jù)治理權(quán)責(zé)體系著手,明確各部門的權(quán)責(zé),[5]重視檔案數(shù)據(jù)治理中的質(zhì)量問題,制定檔案數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和管理制度,維護檔案數(shù)據(jù)質(zhì)量。[6]三是根據(jù)可能出現(xiàn)的數(shù)據(jù)質(zhì)量問題提出對應(yīng)的技術(shù)措施。如面對數(shù)量巨大、類型眾多的檔案數(shù)據(jù),可構(gòu)建檔案數(shù)據(jù)基因系統(tǒng),促進(jìn)大規(guī)模檔案數(shù)據(jù)的融合與共享,[7]亦可將檔案數(shù)據(jù)進(jìn)行語義化重組,使得大量參差不齊的數(shù)據(jù)能夠有效組織。[8]同時,在面對眾多異構(gòu)檔案數(shù)據(jù)時,應(yīng)探索使用開源類軟件工具,將異構(gòu)數(shù)據(jù)轉(zhuǎn)化為同構(gòu)數(shù)據(jù),[9]從而保障數(shù)據(jù)質(zhì)量??梢姡瑱n案數(shù)據(jù)質(zhì)量控制已成為大數(shù)據(jù)時代構(gòu)建檔案數(shù)據(jù)治理體系的重要組成部分,但是,現(xiàn)有研究主要從分析檔案數(shù)據(jù)質(zhì)量的內(nèi)涵和提升其質(zhì)量的路徑等方面出發(fā),未對其現(xiàn)狀和機制進(jìn)行研究。因此,本文希望構(gòu)建一套合理的檔案數(shù)據(jù)質(zhì)量控制機制,并提出優(yōu)化路徑,以期全面維護檔案數(shù)據(jù)質(zhì)量。

2 大數(shù)據(jù)時代檔案數(shù)據(jù)質(zhì)量控制現(xiàn)狀分析

2.1 檔案數(shù)據(jù)政策法規(guī)制度缺失

政策法規(guī)制度是維護檔案數(shù)據(jù)質(zhì)量的重要保障。新修訂的《中華人民共和國檔案法》第三十五條提出:“保障電子檔案、傳統(tǒng)載體檔案數(shù)字化成果等檔案數(shù)字資源的安全保存和有效利用?!笨梢?,檔案數(shù)據(jù)質(zhì)量控制在宏觀層面已經(jīng)受到關(guān)注,但是,在微觀層面上,目前配套的政策法規(guī)制度尚未完備,現(xiàn)有的政策標(biāo)準(zhǔn)(如表1所示)主要局限于系統(tǒng)規(guī)范、數(shù)據(jù)存儲等方面,而對其形成、傳輸、運行、保管、利用等各方面的規(guī)范存在缺失。

2.2 檔案數(shù)據(jù)數(shù)量巨大結(jié)構(gòu)復(fù)雜

大數(shù)據(jù)時代,檔案工作數(shù)字化轉(zhuǎn)型加速升級,文件“單軌制”持續(xù)推進(jìn),檔案數(shù)據(jù)呈現(xiàn)出數(shù)量巨大、結(jié)構(gòu)復(fù)雜的特點。一方面,檔案資源總量迅速膨脹。據(jù)統(tǒng)計,2020年全國各級國家綜合檔案館館藏電子檔案存儲容量達(dá)1387.5TB,其中,數(shù)碼照片390.2TB,數(shù)字錄音、數(shù)字錄像523.5TB。館藏檔案數(shù)字化成果更是達(dá)到19588.5TB。[10]檔案數(shù)據(jù)的快速增長給檔案管理、利用工作帶來巨大挑戰(zhàn),但當(dāng)前,檔案數(shù)據(jù)化卻主要依靠人工方式完成,[11]技術(shù)水準(zhǔn)較低,管控難度極大,容易造成檔案數(shù)據(jù)錯誤。另一方面,與傳統(tǒng)環(huán)境下檔案數(shù)據(jù)較為單一的結(jié)構(gòu)相比,大數(shù)據(jù)時代的檔案數(shù)據(jù)產(chǎn)生環(huán)境呈現(xiàn)網(wǎng)絡(luò)化、數(shù)據(jù)化的特征,大量非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化甚至異構(gòu)數(shù)據(jù)融合共存,[12]易造成數(shù)據(jù)管理標(biāo)準(zhǔn)不一致、格式不兼容等問題,導(dǎo)致檔案數(shù)據(jù)質(zhì)量下降。

2.3 檔案數(shù)據(jù)實踐處于起步階段

檔案數(shù)據(jù)化的持續(xù)推進(jìn)倒逼實踐部門改善管理理念、更新數(shù)據(jù)處理技術(shù),但是,檔案數(shù)據(jù)實踐尚處于起步階段,技術(shù)應(yīng)用尚未成熟,實踐部門之間缺乏有效聯(lián)動,檔案數(shù)據(jù)質(zhì)量控制效果甚微。一方面,檔案部門依然更多地將關(guān)注點放在檔案數(shù)據(jù)的數(shù)量增長上,越來越多的檔案館館藏檔案數(shù)字化程度可達(dá)到較高水平,但是,檔案部門對其館藏數(shù)字資源的管理大多只停留在簡單的組織、檢索、利用層面,[13]未能對其進(jìn)行深度的數(shù)據(jù)挖掘、數(shù)據(jù)審查及安全維護等操作。另一方面,館藏資源呈現(xiàn)出孤立、碎片化的管理格局,易造成“數(shù)據(jù)壁壘”“數(shù)據(jù)孤島”等質(zhì)量問題。如大連市在民生檔案數(shù)據(jù)資源整合共享方面,其戶籍檔案與大連檔案部門的檔案是分散管理、各自為政的,“數(shù)據(jù)孤島”現(xiàn)象嚴(yán)重,未有做到有效的整合與共享。[14]

3 大數(shù)據(jù)時代檔案數(shù)據(jù)質(zhì)量控制機制

檔案數(shù)據(jù)質(zhì)量控制應(yīng)立足數(shù)據(jù)生命周期過程,綜合應(yīng)用標(biāo)準(zhǔn)、技術(shù)、主體協(xié)同等手段保證檔案數(shù)據(jù)在整個生命周期中始終保持質(zhì)量效果穩(wěn)定,構(gòu)建檔案數(shù)據(jù)質(zhì)量監(jiān)督管控、技術(shù)保障、質(zhì)量評估等控制機制。

3.1 檔案數(shù)據(jù)監(jiān)督管控機制

應(yīng)對檔案數(shù)據(jù)管理各個環(huán)節(jié)制訂對應(yīng)的標(biāo)準(zhǔn)規(guī)范,形成有效的監(jiān)督管控機制,確保檔案數(shù)據(jù)始終保持真實、可靠、規(guī)范、可控的特征,方可滿足檔案工作和用戶利用的需求。

(1)前端標(biāo)準(zhǔn)規(guī)范的嵌入機制。依據(jù)檔案數(shù)據(jù)質(zhì)量管控要求,把相關(guān)的標(biāo)準(zhǔn)規(guī)范嵌入文件的形成過程,以便從源頭出發(fā),形成完備的檔案數(shù)據(jù)來源管控機制。一是檔案部門需要明確檔案數(shù)字化、數(shù)據(jù)質(zhì)量管理要求,制訂前端控制階段檔案數(shù)據(jù)識別、數(shù)據(jù)檢測、數(shù)據(jù)清洗、數(shù)據(jù)分類、數(shù)據(jù)錄入、數(shù)據(jù)標(biāo)引、元數(shù)據(jù)封裝等標(biāo)準(zhǔn)規(guī)范,形成有效的規(guī)范機制管控來源端的檔案數(shù)據(jù)質(zhì)量。二是依據(jù)標(biāo)準(zhǔn)規(guī)范制訂實踐指南,設(shè)計數(shù)據(jù)核驗計劃、行動方案、監(jiān)控手段,做好檔案數(shù)據(jù)在生成階段的質(zhì)量檢測措施,保證檔案數(shù)據(jù)源頭的準(zhǔn)確性、完整性、可靠性。

(2)流轉(zhuǎn)過程中的高效監(jiān)管機制。必須采取高效的監(jiān)管措施,形成有效的監(jiān)管運行機制,確保檔案數(shù)據(jù)在傳輸、保管、利用等流轉(zhuǎn)過程中的質(zhì)量,且技術(shù)要求等應(yīng)根據(jù)檔案業(yè)務(wù)工作需求變化而隨時更新。一是要制訂檔案數(shù)據(jù)變更、加載、格式轉(zhuǎn)換等技術(shù)要求,防范數(shù)據(jù)錯誤、難以讀取、利用困難等質(zhì)量問題。二是要制訂檔案數(shù)據(jù)管控標(biāo)準(zhǔn),明確數(shù)據(jù)歸檔原則、歸檔流程、數(shù)據(jù)存儲規(guī)范,掌握其歸檔效率、完整率等。同時,制訂檔案數(shù)據(jù)定期核驗標(biāo)準(zhǔn),以便于對保存期的檔案數(shù)據(jù)定期核驗、復(fù)查,使其能隨時提供利用。三是形成合理的檔案數(shù)據(jù)利用規(guī)范,明確數(shù)據(jù)開放利用范圍、利用流程等,并確保其滿足可機讀、易訪問、能下載等通用技術(shù)指標(biāo)。

3.2 檔案數(shù)據(jù)技術(shù)保障機制

檔案數(shù)據(jù)的質(zhì)量由兩方面內(nèi)容構(gòu)成:一是檔案數(shù)據(jù)自身的質(zhì)量,即檔案數(shù)據(jù)準(zhǔn)確、可靠、可用的程度;二是檔案數(shù)據(jù)過程質(zhì)量,即檔案數(shù)據(jù)在傳輸、存儲、運行、利用等過程中的質(zhì)量。[15]因此,可從元數(shù)據(jù)管控、數(shù)據(jù)運轉(zhuǎn)過程兩個方面入手。

(1)打造有效的元數(shù)據(jù)管控機制。有效的元數(shù)據(jù)管控機制對于保證檔案數(shù)據(jù)質(zhì)量具有重要的意義。因此,必須要打造切實可行的檔案元數(shù)據(jù)管控機制,實現(xiàn)對各元數(shù)據(jù)名稱和語義的規(guī)范化管控,并盡量以已有標(biāo)準(zhǔn)為指南,加深引用、復(fù)用的方式構(gòu)建新的元數(shù)據(jù)管控機制。如可利用Dublin Core作為基礎(chǔ)復(fù)用元數(shù)據(jù)標(biāo)準(zhǔn),在復(fù)用基礎(chǔ)上結(jié)合大數(shù)據(jù)時代社交媒體檔案數(shù)據(jù)特征進(jìn)行元素擴展,制訂完整的社交媒體文件元數(shù)據(jù)歸檔技術(shù)方案,[16]實現(xiàn)海量社交媒體數(shù)據(jù)的歸檔。

(2)構(gòu)建科學(xué)的檔案數(shù)據(jù)運轉(zhuǎn)機制??茖W(xué)的檔案數(shù)據(jù)運轉(zhuǎn)機制,能克服檔案數(shù)據(jù)在運行、傳輸、存儲、利用過程中易受到的技術(shù)異常、系統(tǒng)漏洞或管理人員操作不當(dāng)?shù)炔焕蛩赜绊?,[17]保證檔案數(shù)據(jù)質(zhì)量在全生命周期中始終處于良好狀態(tài)。一是注重數(shù)據(jù)審查技術(shù)的應(yīng)用,加強對檔案數(shù)據(jù)的檢測、識別,實現(xiàn)對其質(zhì)量的全面追蹤。二是更新數(shù)據(jù)庫技術(shù)和存儲設(shè)備,促進(jìn)不同來源、異構(gòu)、碎片化、離散性強的檔案數(shù)據(jù)之間的整合集成,使其在存儲過程中保持關(guān)聯(lián),確??梢灾貜?fù)利用。如2020年4月浙江省檔案館啟動省檔案數(shù)據(jù)中心建設(shè),旨在匯集全省開放檔案、民生檔案、專題檔案等資源數(shù)據(jù),以及檔案收集管理、開發(fā)利用等工作數(shù)據(jù),[18]為統(tǒng)籌整合檔案數(shù)據(jù)、提供高質(zhì)量數(shù)據(jù)服務(wù)做了充足準(zhǔn)備。

3.3 檔案數(shù)據(jù)質(zhì)量評估機制

通過構(gòu)建科學(xué)的檔案數(shù)據(jù)質(zhì)量評估機制,使其質(zhì)量效果能滿足多方面需求,從而促進(jìn)檔案數(shù)據(jù)服務(wù)的優(yōu)化。

(1)形成實用的評估指標(biāo)遴選機制。檔案數(shù)據(jù)質(zhì)量評估機制科學(xué)的運轉(zhuǎn),建立在指標(biāo)合理設(shè)計與分布的基礎(chǔ)之上,因此,評估指標(biāo)的遴選機制必須科學(xué)合理,能夠反映檔案數(shù)據(jù)質(zhì)量的要求,所遴選的指標(biāo)應(yīng)包括但不限于以下:可用性,即檔案數(shù)據(jù)是否可用,是否滿足可機讀、可運行、重復(fù)利用等技術(shù)標(biāo)準(zhǔn);完整性,即檔案數(shù)據(jù)是否完整,數(shù)據(jù)實體、數(shù)據(jù)屬性是否缺失;準(zhǔn)確性,即檔案數(shù)據(jù)所記錄的事實是否準(zhǔn)確真實;規(guī)范性,即檔案數(shù)據(jù)的格式、類型、值域等指標(biāo)是否合規(guī);一致性,即檔案數(shù)據(jù)是否出現(xiàn)變更;關(guān)聯(lián)性,即保持檔案數(shù)據(jù)之間的關(guān)聯(lián);可控性,即檔案數(shù)據(jù)從生成到流轉(zhuǎn)的各環(huán)節(jié)都可以得到有效控制。[19]并且,對相關(guān)指標(biāo)具體要求、規(guī)范等還必須要形成良好的增減制度,實現(xiàn)評估指標(biāo)遴選的動態(tài)化操作,使遴選機制更加高效與科學(xué)合理。

(2)構(gòu)建多元化評估主體的參與機制。只有構(gòu)建順暢的社會主體參與渠道,并形成有效的社會主體參與機制,檔案部門才能充分調(diào)動與借助社會力量,助推檔案數(shù)據(jù)質(zhì)量評估機制順利實現(xiàn)。一是主動強化與立檔單位、技術(shù)部門、大數(shù)據(jù)管理部門等組織機構(gòu)的協(xié)同聯(lián)動機制,從實際出發(fā),評估檔案數(shù)據(jù)質(zhì)量是否滿足需要。二是檔案部門可基于自身網(wǎng)絡(luò)基礎(chǔ)設(shè)施,打通與社會公眾的交互渠道,收集其利用檔案數(shù)據(jù)的體驗感受,形成良好的反饋機制,并根據(jù)公眾的反饋建議改善數(shù)據(jù)質(zhì)量,確保檔案數(shù)據(jù)服務(wù)的優(yōu)質(zhì)性。如美國國家檔案館(NARA)分別建立了與政府、社會資本和公眾的合作機制,[20]有效促進(jìn)了多元主體共同參與檔案數(shù)據(jù)質(zhì)量控制。

4 大數(shù)據(jù)時代檔案數(shù)據(jù)質(zhì)量控制優(yōu)化路徑

4.1 加強檔案數(shù)據(jù)質(zhì)量控制頂層設(shè)計

檔案數(shù)據(jù)質(zhì)量監(jiān)督管控等標(biāo)準(zhǔn)規(guī)范的制訂需要立足于國家層面的頂層設(shè)計,對此,可通過推進(jìn)檔案數(shù)據(jù)質(zhì)量控制走進(jìn)法律視野,制訂檔案數(shù)據(jù)質(zhì)量控制戰(zhàn)略規(guī)劃等方式,增強頂層設(shè)計,為檔案數(shù)據(jù)質(zhì)量控制的具體實踐提供綱領(lǐng)性指導(dǎo)。

(1)推進(jìn)檔案數(shù)據(jù)質(zhì)量控制走進(jìn)法律視野。一是需要在法理層面進(jìn)一步明確檔案主管機構(gòu)對檔案數(shù)據(jù)的監(jiān)督管控職責(zé),精確劃定檔案數(shù)據(jù)保密、開放共享以及用戶群體在維護數(shù)據(jù)完整與安全方面必須履行的責(zé)任和義務(wù)。二是應(yīng)在法律上明確檔案數(shù)據(jù)質(zhì)量控制應(yīng)達(dá)到能夠有效保障數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的效果,切實改變檔案部門“重數(shù)量,輕質(zhì)量”的管理思想,關(guān)注檔案數(shù)據(jù)的生命周期過程,確保其生命周期各階段能凸顯自身的價值,成為社會運轉(zhuǎn)的決策依據(jù)。

(2)制訂檔案數(shù)據(jù)質(zhì)量控制戰(zhàn)略規(guī)劃。一是檔案部門需要完善現(xiàn)有的檔案數(shù)據(jù)質(zhì)量控制戰(zhàn)略規(guī)劃,增加檔案數(shù)據(jù)權(quán)益維護、檔案數(shù)據(jù)服務(wù)平臺建設(shè)規(guī)劃等方面的內(nèi)容,為微觀層面標(biāo)準(zhǔn)規(guī)范的制訂和完善提供方向引導(dǎo)。二是應(yīng)該充分考慮到不同數(shù)據(jù)資源的特點,明確檔案數(shù)據(jù)管理發(fā)展方向,制訂統(tǒng)一的戰(zhàn)略,充分保證數(shù)據(jù)質(zhì)量。如美國國家檔案與文件署(NARA)對不同類型檔案數(shù)據(jù)的管理戰(zhàn)略值得我們借鑒。該館在2007年發(fā)布了《鑒定政策戰(zhàn)略方向》(Appraisal Policy of the National Archives),其附件二《對特定類型的文件的特殊考慮》[21]中對不同類型的檔案數(shù)據(jù)管理做了特別說明。

4.2 筑造檔案數(shù)據(jù)質(zhì)量技術(shù)保護屏障

大數(shù)據(jù)時代,檔案數(shù)據(jù)質(zhì)量需要更為先進(jìn)的技術(shù)保障。在對檔案元數(shù)據(jù)的管控中,應(yīng)遵從元數(shù)據(jù)管理規(guī)范,采用對應(yīng)技術(shù)進(jìn)行元數(shù)據(jù)管控;面對檔案數(shù)據(jù)生命周期各階段的質(zhì)量問題,可開發(fā)多類型的數(shù)據(jù)審查類、保管類管理工具全面維護其質(zhì)量效果,從而構(gòu)成堅實的檔案數(shù)據(jù)質(zhì)量技術(shù)保護屏障。

(1)拓展技術(shù)應(yīng)用深度,強化元數(shù)據(jù)技術(shù)運用。大數(shù)據(jù)環(huán)境下,檔案元數(shù)據(jù)管控需要具備完善的拓展功能以滿足海量數(shù)據(jù)描述需求,并能對其進(jìn)行實時捕獲。一是可應(yīng)用元數(shù)據(jù)自動生成技術(shù),通過爬蟲工具對網(wǎng)頁資源的時間戳、文件類型、URL、MIME等信息進(jìn)行捕獲,并解析HTML網(wǎng)頁源代碼獲取標(biāo)簽信息,從而實現(xiàn)海量元數(shù)據(jù)的管理。[22]如希臘網(wǎng)頁歸檔項目中對網(wǎng)頁和錨文本的關(guān)鍵詞進(jìn)行自動抽取,形成分類集群,實現(xiàn)了大量網(wǎng)頁數(shù)據(jù)的歸檔,有效維護了數(shù)據(jù)質(zhì)量。[23]二是可探索應(yīng)用開源技術(shù)開發(fā)元數(shù)據(jù)管理工具。美國地質(zhì)勘探局在其官網(wǎng)上推薦了數(shù)據(jù)管理、元數(shù)據(jù)創(chuàng)建等工具,并公布了可供下載的鏈接等,[24]我國檔案部門可借此鏈接積極訪問,利用其公開的源代碼和技術(shù)架構(gòu),開發(fā)自己的開源類元數(shù)據(jù)管理工具。

(2)擴展技術(shù)應(yīng)用廣度,豐富檔案數(shù)據(jù)管理工具類型。檔案數(shù)據(jù)在整個生命周期過程中易受到多種復(fù)雜因素的影響,單一的技術(shù)難以全面保障數(shù)據(jù)質(zhì)量效果,應(yīng)針對各階段檔案數(shù)據(jù)質(zhì)量維護的實際需求,開發(fā)相應(yīng)的管理工具。歐美國家在檔案數(shù)據(jù)管理工具的開發(fā)上具備較為成熟的經(jīng)驗,可借鑒參考。如在Planets計劃支持下,歐盟各國開發(fā)了格式識別、數(shù)據(jù)庫存檔、硬件仿真器[25]等具備數(shù)據(jù)審查和保存管理功能的數(shù)據(jù)管理工具,對檔案數(shù)據(jù)在傳輸、運行和存儲階段的質(zhì)量效果起到了較好的維護作用。再如加拿大溫哥華數(shù)字檔案館集成了檔案網(wǎng)絡(luò)存儲Archivematica、檔案利用AtoM、檔案數(shù)字鑒證BitCurator三類數(shù)據(jù)管理工具,且都是運用開源技術(shù)開發(fā),可直接通過網(wǎng)絡(luò)下載,[26]我國檔案部門亦可體驗。

4.3 構(gòu)建檔案數(shù)據(jù)質(zhì)量評估模型與平臺

檔案數(shù)據(jù)質(zhì)量評估的順利開展可借助評估模型和平臺優(yōu)勢,設(shè)計可行的評估方法。一方面,可利用國際數(shù)據(jù)管理協(xié)會(DAMA International)提供的數(shù)據(jù)管理成熟度模型,根據(jù)模型評估優(yōu)勢,結(jié)合檔案數(shù)據(jù)質(zhì)量評估指標(biāo),設(shè)計評估方案;另一方面,構(gòu)建交互平臺,確保多元主體有效參與檔案數(shù)據(jù)質(zhì)量評估工作。

(1)應(yīng)用數(shù)據(jù)管理成熟度模型。一是利用模型評價優(yōu)勢,促進(jìn)檔案數(shù)據(jù)質(zhì)量評估模式化。檔案部門可根據(jù)評估工作的實際需求,單獨或混合使用該類模型,并結(jié)合其框架體系開發(fā)檔案數(shù)據(jù)質(zhì)量評估模型,形成評估工作開展的固定模式。二是利用模型優(yōu)化功能,推動檔案數(shù)據(jù)質(zhì)量的持續(xù)提升。檔案部門可利用成熟度模型評估檔案數(shù)據(jù)管理現(xiàn)狀,分析檔案數(shù)據(jù)在不同階段應(yīng)達(dá)到何種質(zhì)量水平,從而促進(jìn)其質(zhì)量提升。如可將檔案數(shù)據(jù)評估維度包括的完整性、準(zhǔn)確性、規(guī)范性、一致性、關(guān)聯(lián)性、可控性等指標(biāo)與CMM的五個成熟度等級(初始級、重復(fù)級、已定義級、可預(yù)測級和優(yōu)化級)相結(jié)合,分別描述不同等級應(yīng)達(dá)到的數(shù)據(jù)質(zhì)量水平,[27]以此作為衡量檔案數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn)方法。目前,國內(nèi)外已有多組數(shù)據(jù)管理成熟度模型,該類模型不僅能對數(shù)據(jù)管理現(xiàn)狀進(jìn)行評價分析,而且還可以提供改善策略,[28]檔案部門可參考利用。

(2)開發(fā)功能完善的交互平臺。多元主體參與到檔案數(shù)據(jù)質(zhì)量評估中需要以交互平臺為渠道,讓其可以跨越時間、空間的限制,將檔案數(shù)據(jù)利用體驗和改善意見反饋給檔案部門。構(gòu)建交互平臺,一是要注重提升平臺服務(wù)的響應(yīng)性。要在平臺中設(shè)置數(shù)據(jù)請求功能,同時還應(yīng)實現(xiàn)及時答復(fù)各主體所給予的反饋意見的功能,并告知用戶數(shù)據(jù)質(zhì)量提升的改進(jìn)意見、優(yōu)化進(jìn)度等。二是開通平臺的眾包功能,發(fā)動社會力量積極參與,利用群體智慧完善數(shù)據(jù)質(zhì)量提升方案。如“盛宣懷檔案抄錄項目”構(gòu)建了完善的數(shù)據(jù)眾包平臺,平臺中設(shè)置了反饋、幫助[29]等數(shù)據(jù)請求功能,具備及時響應(yīng)性,為抄錄項目的順利開展起到了極大的幫助。

5 結(jié) 語

大數(shù)據(jù)時代,檔案數(shù)據(jù)在數(shù)量、來源、類型、結(jié)構(gòu)的變化發(fā)展,使之面臨的數(shù)據(jù)質(zhì)量問題日益嚴(yán)峻。檔案部門應(yīng)放眼檔案數(shù)據(jù)的整個生命周期過程,全面考慮其質(zhì)量問題,完善檔案數(shù)據(jù)管理的各類法規(guī)政策,制訂具體的管理制度,借助先進(jìn)的數(shù)據(jù)管理技術(shù),開展檔案數(shù)據(jù)質(zhì)量控制研究,有效維護檔案數(shù)據(jù)質(zhì)量水平,從而不斷滿足檔案工作需要。

*本文系國家社科基金項目“國家大數(shù)據(jù)戰(zhàn)略背景下檔案數(shù)據(jù)質(zhì)量優(yōu)化控制研究”(項目編號:21BTQ016)的階段性研究成果。

注釋與參考文獻(xiàn)

[1]倪代川,金波.數(shù)字記憶視域下檔案數(shù)據(jù)治理探析[J].檔案管理,2021(01):41-44.

[2][12]金波,添志鵬.檔案數(shù)據(jù)內(nèi)涵與特征探析[J].檔案學(xué)通訊,2020(03):4-11.

[3]陳慧,羅慧玉,陳暉.檔案數(shù)據(jù)質(zhì)量要素識別及智能化保障探究——以昆柳龍直流工程項目檔案為例[J].檔案學(xué)通訊,2021(05):49-57.

[4]于英香,張雅頡.“檔案參與”科學(xué)數(shù)據(jù)監(jiān)管:緣起、現(xiàn)狀與動因[J].檔案學(xué)研究,2021(02):104-110.

[5][28]劉越男.數(shù)據(jù)治理:大數(shù)據(jù)時代檔案管理的新視角和新職能[J].檔案學(xué)研究,2020(05):50-57.

[6]常大偉,潘娜.檔案數(shù)據(jù)治理能力的結(jié)構(gòu)體系與建設(shè)路徑[J].浙江檔案,2020(02):27-29.

[7]趙生輝,胡瑩.檔案數(shù)據(jù)基因系統(tǒng):概念、機理與實踐[J].檔案學(xué)研究,2021(01):40-48.

[8]夏天,錢毅.面向知識服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(02):36-44.

[9]何思源,劉越男.科學(xué)數(shù)據(jù)和科研檔案的管理協(xié)同:框架和路徑[J].檔案學(xué)通訊,2021(01):49-57.

[10]國家檔案局政策法規(guī)司.2020年度全國檔案主管部門和檔案館基本情況摘要(二)[EB/OL].[2021-08-06]. https://www.saac.gov.cn/daj/zhdt/202108/6262a796fdc3487d93bf a7005acfe2ae.shtml.

[11]趙生輝,胡瑩.“檔案數(shù)據(jù)化”底層邏輯的解析與啟示[J].檔案學(xué)通訊,2021(04):20-27.

[13]趙躍.大數(shù)據(jù)時代檔案數(shù)據(jù)化的前景展望:意義與困境[J].檔案學(xué)研究,2019(05):52-60.

[14]吳黎明.大連市民生檔案數(shù)據(jù)整合利用問題研究[D].大連理工大學(xué),2020.

[15][17][19]金波,楊鵬.大數(shù)據(jù)時代檔案數(shù)據(jù)治理研究[J].檔案學(xué)研究,2020(04):29-37.

[16]曾薩,黃新榮.我國社交媒體文件存檔元數(shù)據(jù)方案構(gòu)建[J].圖書館學(xué)研究,2020(20):58-66.

[18]浙江省檔案館.浙江省檔案館啟動省檔案數(shù)據(jù)中心 建設(shè)[EB/OL].[2020-04-14].http://www.zjda.gov.cn/art/ 2020/4/14/art_1229005493_42564205.html.

[20]白文琳,安小米.政府電子文件協(xié)同管理:美國經(jīng)驗及其啟示[J].檔案學(xué)通訊,2020(04):103-112.

[21]NARA.Appraisal Policy of the National Archives[EB/ OL].[2021-05-08].https://www.archives.gov/records-mgmt/ scheduling/appraisal _ga=2.69520656.122467392.1620376251-856513955.1620376251.

[22]王蘭成,劉曉亮,黃永勤.檔案社會化媒體信息整合中元數(shù)據(jù)構(gòu)建與集成技術(shù)研究[J].檔案學(xué)研究,2019(05):102-107.

[23]Grotke A,Jones G.Digiboarda:tool to streamline complex web archiving activities at the Library of Congress[C].10th International Web Archiving Workshop(IWAW10),2010.

[24]United States Geological Survey.Data Management[EB/ OL].[2021-05-09].https://www.usgs.gov/products/dataand-tools/data-management.

[25]姚飛,姜愛蓉.歐盟長期保存項目Planets的體系與特點[J].現(xiàn)代圖書情報技術(shù),2010(02):12-16.

[26]范冠艷.基于實體檔案館信息化的數(shù)字檔案館建設(shè)實踐探究——對溫哥華市檔案館數(shù)字保存項目的實地調(diào)研[J].檔案學(xué)研究,2018(05):129-134.

[27]吳錦池,余維杰.圖書館數(shù)據(jù)治理成熟度評價體系構(gòu)建[J].情報科學(xué),2021(01):65-71.

[29]張軒慧,趙宇翔,宋小康.數(shù)字人文類公眾科學(xué)項目持續(xù)發(fā)展階段的公眾參與動因探索——基于盛宣懷檔案抄錄案例的扎根分析[J].圖書情報知識,2018(03):4+16-25+77.

猜你喜歡
質(zhì)量優(yōu)化大數(shù)據(jù)時代
基于“互聯(lián)網(wǎng)+”的學(xué)生頂崗實習(xí)管理平臺的開發(fā)與應(yīng)用
大數(shù)據(jù)時代下計算機信息處理技術(shù)的應(yīng)用
大數(shù)據(jù)時代背景下高職院校宣傳思想工作的思考與實踐
大數(shù)據(jù)時代下圖書館的服務(wù)創(chuàng)新與發(fā)展
大數(shù)據(jù)時代高校學(xué)生知識管理
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
建筑暖通安裝工程的施工管理
市政雨水管道施工質(zhì)量通病淺析
垃圾發(fā)電廠防雷接地設(shè)計質(zhì)量優(yōu)化措施
小兒頭頸部CT檢查技術(shù)優(yōu)化研究
无棣县| 隆德县| 莎车县| 普兰店市| 乾安县| 灵台县| 会昌县| 玛多县| 邢台市| 准格尔旗| 富蕴县| 宁强县| 新闻| 河西区| 承德市| 英吉沙县| 麦盖提县| 呼和浩特市| 台东市| 迁安市| 景洪市| 新丰县| 仁寿县| 新密市| 西乌珠穆沁旗| 株洲市| 徐水县| 大足县| 庐江县| 宁德市| 曲松县| 金山区| 措美县| 峡江县| 云安县| 外汇| 静安区| 天柱县| 孝感市| 胶南市| 宿迁市|