周文泓 賀譚濤 吳瓊 黃小宇
摘要:文章解析了計算檔案學(xué)的典型實踐案例,旨在明晰數(shù)字技術(shù)與檔案領(lǐng)域融合的理論框架及實踐內(nèi)涵,由此推動行動方法論的形成與后續(xù)發(fā)展。運用案例分析法,通過對NARA專題探索成果的歸納、整合,解析計算檔案學(xué)在檔案管理中的實現(xiàn)維度與具體內(nèi)容。由此,從認(rèn)識層基于跨學(xué)科特性的計算思維和技術(shù)意識,以及行動層的跨領(lǐng)域團隊建設(shè)、問題解決流程呈現(xiàn)出計算檔案學(xué)的實踐內(nèi)容,以此明確計算檔案學(xué)后續(xù)在理論體系與行動策略這兩大層面亟待拓展的空間。
關(guān)鍵詞:計算檔案學(xué);檔案管理;數(shù)字轉(zhuǎn)型;計算思維
分類號:G270.7
Analysis and Prospect on Multifaceted Practices in Computational Archival Science:A Case Study of NARAs Thematic Practices
Zhou Wenhong,He Tantao,Wu Qiong,Huang Xiaoyu
(School of Public Administration of Sichuan University, Chengdu, Sichuan, 610064)
Abstract:This article describes multiple representative cases of computational archival science, aiming to help build a theoretical framework and upgrade its intension in practices, thus promote its application and development. Adopting case study as a basic method, the dimensions and contents of computational archival science implemented in records management are clarified based on the synthesis and integration of NARAs thematic practices case. As a result, the practical contents of computational archival science are presented from computational thinking and technological awareness based on interdisciplinary nature at the cognitive level to interdisciplinary team building and problem-solving processes at the action level and so, the continuing space in the theoretical system and action strategies of computational archival science is clear.
Keywords:Computational Archival Science; Records Management; Digital Transformation; Com? putationalThinking
信息與數(shù)字技術(shù)的發(fā)展和應(yīng)用正引發(fā)檔案領(lǐng)域的數(shù)字轉(zhuǎn)型與數(shù)字革命。面對諸多挑戰(zhàn),將計算方法應(yīng)用于檔案處理、分析、長期保存和訪問的計算檔案學(xué)正成為檔案領(lǐng)域的熱點議題,拓展了已有十余年探索進(jìn)程的計算社會科學(xué)。計算檔案學(xué)被定義為一個跨學(xué)科的研究領(lǐng)域,主要涉及對大量文件或檔案進(jìn)行處理、分析、長期保存和利用的計算方法與應(yīng)用的研究,目的是為提高檔案資源的利用率,高效、精準(zhǔn)地支持鑒定、處置、描述、保存及提供利用決策,參與和開展各項研究。隨著檔案領(lǐng)域同數(shù)字技術(shù)的深度融合成為重點發(fā)展方向并上升至國家戰(zhàn)略層面,計算檔案學(xué)亟待從理論建構(gòu)延伸至實踐內(nèi)涵的明確[1]。
實踐層面,關(guān)于計算方法及技術(shù)在檔案管理中的應(yīng)用已有長足進(jìn)展,重點體現(xiàn)在為面向檔案數(shù)據(jù)的創(chuàng)建描述、評估鑒定、長期保存、開放利用、敏感信息保護(hù)等提供技術(shù)支持[2]。如美國基于區(qū)塊鏈技術(shù)開展的個人健康檔案服務(wù)系統(tǒng)項目[3]、我國由大數(shù)據(jù)技術(shù)支持的數(shù)字檔案館建設(shè)項目[4]。然而,現(xiàn)有檔案實踐同計算機科學(xué)的理解偏重于單純對技術(shù)的工具性應(yīng)用,對所使用的技術(shù)背后的社會要義、文化內(nèi)涵、哲學(xué)認(rèn)知等均欠缺充分認(rèn)識,不利于檔案領(lǐng)域適應(yīng)計算機科學(xué)所推進(jìn)的數(shù)字轉(zhuǎn)型。
研究層面,依據(jù)截至2020年8月的調(diào)查結(jié)果來看,國外主要以IEEE下設(shè)專題年度研討會將計算檔案學(xué)設(shè)定為顯性主題,或是從計算科學(xué)的理論內(nèi)涵與要件推導(dǎo)結(jié)合了檔案思想的結(jié)果,或是從檔案領(lǐng)域的數(shù)字技術(shù)應(yīng)用實踐角度分析歸納了關(guān)于計算檔案學(xué)的主要問題與內(nèi)容;而國內(nèi)除對國外正開展的計算檔案學(xué)的相關(guān)成果如概念、發(fā)展趨勢予以介紹外,大量研究聚焦于檔案學(xué)與相關(guān)技術(shù)關(guān)系的研究,為計算檔案學(xué)理論的建構(gòu)提供了基礎(chǔ)。這從認(rèn)知上解析了在技術(shù)推進(jìn)數(shù)字轉(zhuǎn)型的背景下,檔案理論與實踐變革的要點、方向、思路等,確認(rèn)了檔案學(xué)內(nèi)核與應(yīng)變框架[5-6]。同時,技術(shù)如何應(yīng)用于多樣化的檔案以及不同的檔案管理環(huán)節(jié),同樣促進(jìn)了檔案學(xué)領(lǐng)域的技術(shù)融合進(jìn)程,數(shù)據(jù)存儲、數(shù)據(jù)分析、可視知識挖掘等數(shù)據(jù)科學(xué)具體技術(shù)應(yīng)用于檔案管理的收集、鑒定等環(huán)節(jié),深化了對檔案領(lǐng)域關(guān)于檔案、檔案真實性、檔案管理理念等頂層問題的探討[7-11]。然而,研究關(guān)于檔案領(lǐng)域如何從認(rèn)知、方法、行動等多層面系統(tǒng)地融入數(shù)字技術(shù)并落定于實踐中的具體內(nèi)涵闡釋卻有限,有待進(jìn)一步基于計算檔案學(xué)已確認(rèn)的基本要義并結(jié)合典型實踐案例予以說明。
由此,文章以美國檔案與文件署(以下稱NARA)的計算檔案學(xué)專題探索為例,旨在從項目內(nèi)容中解讀計算檔案學(xué)貫穿于實踐的內(nèi)涵。將其認(rèn)定為典型實踐案例的原因在于,NARA計算檔案學(xué)專題探索的實踐主體成員為計算檔案學(xué)的發(fā)起人之一Richard Marciano,該專題由多個項目組成,且均在可持續(xù)發(fā)展中。文章將對組成專題的多個項目進(jìn)行整合梳理與分析,以此明確計算檔案學(xué)在檔案實踐中的具體內(nèi)涵與表現(xiàn),展望更面向?qū)嵺`的計算檔案學(xué)。
NARA的第二次世界大戰(zhàn)日裔美國人監(jiān)禁營地系列文件數(shù)量大,極具檔案價值。針對海量檔案的不同保管及開發(fā)利用需求,NARA與馬里蘭大學(xué)信息學(xué)院數(shù)字策展創(chuàng)新中心(以下稱DCIC)合作,以計算檔案學(xué)為框架,面向不同檔案管理問題選取不同技術(shù)開展系列項目。
1.1項目背景
隨著數(shù)字轉(zhuǎn)型趨勢的加強,如何實現(xiàn)檔案管理與數(shù)字技術(shù)最大程度的結(jié)合,已成為NARA提升檔案管理工作的方向。
一方面,加快對開放重要館藏檔案的數(shù)字轉(zhuǎn)化、在線利用以及高效挖掘已成為重點業(yè)務(wù)內(nèi)容,NARA以代表性館藏如極具社會與人文研究價值的第二次世界大戰(zhàn)日裔美國人監(jiān)禁營地系列文件為對象,探索利用數(shù)字技術(shù)完成大批量開放檢測、元數(shù)據(jù)提取、檔案開發(fā)利用等業(yè)務(wù)工作,由此構(gòu)建出融合了計算思維與方法的檔案管理體系。
另一方面,計算社會科學(xué)得到檔案學(xué)者與專家的關(guān)注,推動檔案管理與數(shù)字技術(shù)的深度結(jié)合,學(xué)者由此提出計算檔案學(xué)的建設(shè)倡議。在對計算檔案學(xué)的探索進(jìn)程中,理論學(xué)者與實踐專家的合作成為重要方式,計算檔案學(xué)發(fā)起人之一的馬里蘭大學(xué)的教授Richard Marciano基于地理優(yōu)勢尋求與NARA的合作。
1.2項目主體
基于上述背景,該實踐項目由NARA與DCIC領(lǐng)銜,在美國國家科學(xué)基金會“Brown Dog”項目以及IMLS的資助下,聯(lián)合致力于保護(hù)二戰(zhàn)時期日裔監(jiān)禁故事的Densho、馬里蘭大學(xué)信息學(xué)院及其學(xué)生團隊、獨立研究員Sandra Laib等機構(gòu)、團體和個人共同推進(jìn),是一個由多方合作開展且得益于多主體的項目,在2016至2019年間開展了系列實踐項目。在此過程中,NARA主體為主要需求提出者和二戰(zhàn)日裔美國人監(jiān)禁營地系列文件提供者;此外,Densho也提供了基于系列文件提取的數(shù)據(jù)集;DCIC是項目的主要領(lǐng)導(dǎo)者和實踐開展者;其他機構(gòu)、團體和個人則為本項目提供了大量技術(shù)和資源的支持。
1.3項目對象
受珍珠港事件影響,1942年3月18日,戰(zhàn)時安置管理局(以下稱WRA)正式成立,處理二戰(zhàn)期間強行安置和拘留日裔美國人的事宜,形成了一系列聯(lián)邦文件,包括“被拘留日裔美國人數(shù)據(jù)文件,1942—1946”(以下稱WRA Form 26),其中有被疏散的日裔美國人的入營文件;“1944—1946年安置中心疏散人員的最終責(zé)任名冊”(以下稱FAR),包含營員獲釋或轉(zhuǎn)移時的文件;具有100多個系列的各類WRA文件(以下稱RG 210),其中包括十分重要的“內(nèi)部安全案例報告”索引卡(以下稱索引卡)。
1.4項目內(nèi)容及成果
為實現(xiàn)高效的檔案管理及其業(yè)務(wù)目標(biāo),NARA積極理解與應(yīng)用數(shù)字技術(shù),基于計算思維與方法面向檔案管理需求設(shè)計出不同的實踐項目:
(1)檔案開放檢測
為促進(jìn)WRA中RG210系列文件中25000多張索引卡(共21盒)的對外開放,NARA特殊利用和信息自由法案辦公室發(fā)布了個人身份信息(PII)公布政策,用于公開成年人索引卡。創(chuàng)新辦公室根據(jù)上述政策,將9996張JPEG格式的索引卡移交給DCIC,希望依靠DCIC的數(shù)字技術(shù)能力識別出不滿足開放政策的索引卡。
為驗證數(shù)字技術(shù)的可行性,DCIC選擇了247張索引卡進(jìn)行測試。首先,DCIC使用ABBYY FineReader軟件將索引卡圖片轉(zhuǎn)化為UTF-8編碼文本,形成結(jié)構(gòu)化數(shù)據(jù)。隨后,項目團隊在開源通用文本工程框架(以下稱GATE)下,利用英文信息提取插件ANNIE,將UTF-8編碼文本加載至GATE中,對索引卡中的信息進(jìn)行識別,提取了姓名、英文名、日期、年份、年齡、住址ID以及家庭編號等元數(shù)據(jù)字段,并將其轉(zhuǎn)換成OWL/RDF語句,存儲于圖形數(shù)據(jù)庫中。最后,DCIC利用Densho提供的WRA Form 26、FARshu數(shù)據(jù)集,設(shè)計流程圖,編寫偽代碼和應(yīng)用程序,并將索引卡結(jié)構(gòu)化數(shù)據(jù)依次與Form 26、FAR數(shù)據(jù)集進(jìn)行比對,若上述兩組數(shù)據(jù)集中任意一組的索引卡中姓名被發(fā)現(xiàn)有日本名字,且該人的年齡大于18歲,則滿足開放政策要求。
最后通過運行程序發(fā)現(xiàn),247張索引卡中的228份滿足政策要求可以開放,12張信息索引卡為滿足政策要求但需限制開放,只有7張索引卡信息未出現(xiàn)在WRA Form 26、FAR系列文件中因而無法判定開放與否。換言之,通過初步測試發(fā)現(xiàn),利用該檢測程序可以實現(xiàn)絕大部分索引卡的開放檢測工作。
(2)檔案組織整理
一方面,NARA希望為索引卡圖片提供描述性元數(shù)據(jù),從而方便后續(xù)的文件管理活動;另一方面,檔案資源的開發(fā)利用也需要檔案組織整理工作的支持。上述原因使得需要對數(shù)字化后的索引卡信息進(jìn)行組織和整理。除在檔案開放檢測項目中,利用計算機語義分析技術(shù)成功提取了描述性元數(shù)據(jù)外,DCIC還進(jìn)行了兩項實踐項目,以支持后續(xù)的開發(fā)利用工作。
一是利用編程技術(shù)開發(fā)形成姓名登記表,從而通過姓名將各類文件關(guān)聯(lián)起來,追蹤個人經(jīng)歷和行為。為達(dá)到這一目的,DCIC需要將營地中每個人都會擁有的兩組文件WRA Form 26和FAR進(jìn)行匹配,確定營地內(nèi)的人員姓名,形成姓名登記表。為此,DCIC將Densho整理的Form 26和FAR的數(shù)據(jù)集用于姓名登記表的開發(fā)工作。首先,DCIC設(shè)計了匹配方法,即標(biāo)識WRA Form 26和FAR兩組文件中都出現(xiàn)的每個信息或字段。然后確定哪種組合可能會始終如一地返回至同一個人。隨后,DCIC與Densho合作,在Jupyter Notebook上以Python語言創(chuàng)建了用于發(fā)現(xiàn)兩組文件關(guān)聯(lián)的代碼。最后,項目團隊采取分而治之的策略,即針對不同的數(shù)據(jù)集采取不同的匹配策略,從而最大限度地實現(xiàn)對兩組文件的匹配。由此發(fā)現(xiàn),家庭編號——出生年份是兩組文件最成功的匹配方式。此外,姓名——出生年份、家庭編號——姓名、撤離前城市——出生年份也是極為有效的文件匹配策略。
(3)融合技術(shù)意識
不同于單純地將技術(shù)看作檔案數(shù)字化的簡單工具,項目團隊以檔案管理過程中的各類具體需求與問題為導(dǎo)向,尊重技術(shù)的內(nèi)涵,以深化積極使用技術(shù)的意識。
從廣度上看,NARA將對計算機技術(shù)的靈活應(yīng)用覆蓋至檔案整理、鑒定、開發(fā)利用等檔案管理的重要環(huán)節(jié)。以個人身份信息的檢測實踐為例:在檔案整理環(huán)節(jié),運用掃描技術(shù)、OCR、實體識別程序和數(shù)據(jù)清理軟件,實現(xiàn)紙質(zhì)檔案數(shù)字化、數(shù)據(jù)化和標(biāo)準(zhǔn)化,形成便于后續(xù)利用的數(shù)據(jù)基礎(chǔ);在開放鑒定環(huán)節(jié),運用算法設(shè)計、偽代碼編寫、計算模型構(gòu)建等多種技術(shù)分析數(shù)據(jù),確認(rèn)開放權(quán)限;在開發(fā)利用環(huán)節(jié),展開數(shù)據(jù)可視化實踐,并開發(fā)了眾包交互式程序。
從深度上看,計算機技術(shù)被緊密嵌入檔案活動中。以檔案開放鑒定為例,項目團隊將檔案管理決策問題運用計算機思維分解為可量化與流程化的邏輯判斷問題,并進(jìn)行了深入的數(shù)據(jù)分析。首先,設(shè)計個人身份信息檢測的算法并形成流程圖和圖表,在檔案人員和計算機人員的合作下編寫偽代碼,構(gòu)建計算模型。然后,將偽代碼算法轉(zhuǎn)化為Python編寫應(yīng)用程序,開發(fā)模塊化計算解決方案,最后進(jìn)行故障排除和調(diào)試,剔除不符合開放要求的檔案,為后續(xù)的數(shù)據(jù)開發(fā)或其他實踐提供可用的數(shù)據(jù)集。
2.2行動層面
計算檔案學(xué)認(rèn)知的拓展直接影響與指導(dǎo)具體行動,推動了計算檔案學(xué)框架下的系列實踐:
(1)建設(shè)跨領(lǐng)域的協(xié)作團隊
跨學(xué)科的特性使計算檔案學(xué)實踐涉及其他學(xué)科的專業(yè)知識或特定技能,跨領(lǐng)域的項目團隊建設(shè)以資源提供與專業(yè)能力支持為必要的行動策略。
首先,跨領(lǐng)域的項目團隊意味著不同領(lǐng)域?qū)I(yè)人員的參與其中。例如,項目負(fù)責(zé)人多具有跨學(xué)科的研究和實踐背景,Richard Marciano教授在以機器學(xué)習(xí)和數(shù)據(jù)科學(xué)等計算機科學(xué)為研究方向的同時,也關(guān)注數(shù)字策展等信息管理內(nèi)容。項目成員來自不同專業(yè)領(lǐng)域,其中包括信息管理、計算機科學(xué)、數(shù)學(xué)等領(lǐng)域。其次,檔案學(xué)語境下的計算檔案學(xué)使得實踐側(cè)重點表現(xiàn)為檔案學(xué)對其他學(xué)科的方法借鑒和技能使用,因而跨學(xué)科的項目團隊仍需堅持檔案學(xué)成員在其中的主導(dǎo)地位。以實踐項目為例:項目負(fù)責(zé)人Richard Marciano和William Underwood都是檔案學(xué)的研究者和關(guān)注者。此外,在20多名項目成員中,MLIS學(xué)科成員占50%以上。最后,計算檔案學(xué)作為理論與實踐前沿兼具的學(xué)科,往往依賴于領(lǐng)先性實踐單位與前瞻性科研機構(gòu)的協(xié)作,這在NARA的實踐中就體現(xiàn)為NARA優(yōu)質(zhì)實踐團隊與馬里蘭大學(xué)品牌研究中心以及教育團隊的合作。
(2)識別實踐中的關(guān)鍵問題
計算檔案學(xué)能落實于實踐中的另一關(guān)鍵是問題導(dǎo)向。
明確需求是問題得以識別的基本前提。在計算機技術(shù)應(yīng)用于檔案管理的過程中,需求的不同將直接影響解決問題的思路、方法和對所運用技術(shù)工具的選擇。例如,在設(shè)計受控詞匯表的實踐項目中,由于事故索引卡中對事故類型并無固定記錄要求與統(tǒng)一的記錄標(biāo)準(zhǔn),事故類型無法直接用于索引卡的分類,事故索引卡的有效分類需求在項目設(shè)計中得到明確,這就為設(shè)計具體項目內(nèi)容提供了方向。
問題聚焦,即明確實現(xiàn)需求所需解決的關(guān)鍵問題。例如,在設(shè)計受控詞匯表的項目實踐中,DCIC通過分析后發(fā)現(xiàn),重點問題在于如何從索引卡中提煉出受控詞匯,從而將其用于事故索引卡的分類,這為項目設(shè)計具體活動與選取相應(yīng)支撐技術(shù)提供了直接性的依據(jù)。
問題轉(zhuǎn)化,用以實現(xiàn)檔案管理問題向計算機問題的轉(zhuǎn)化,在促進(jìn)問題解決的同時進(jìn)一步推動檔案管理與計算機技術(shù)的融合發(fā)展。例如在設(shè)計受控詞匯表的項目實踐中,鑒于提煉受控詞匯與聚類分析有著極大的相似性,DCIC成功將檔案整理中的分類問題轉(zhuǎn)化為了計算機領(lǐng)域的聚類分析問題,從而為從技術(shù)角度解決分類問題創(chuàng)造了前提。
(3)實現(xiàn)對問題的抽象建模
從案例中不難發(fā)現(xiàn),抽象建模是有效解決經(jīng)轉(zhuǎn)化的檔案管理問題的通用策略。這是由于檔案管理問題已被轉(zhuǎn)化為計算機問題,而計算機問題本身具有結(jié)構(gòu)化的特征,解決步驟相對固定,且問題解決過程中所采用的技術(shù)工具也是標(biāo)準(zhǔn)化的,這與抽象建模所要求的結(jié)構(gòu)化、模塊化十分契合。NARA的實踐呈現(xiàn)了抽象建模的具體流程。
模型建構(gòu),即通過有層次地分析,將重點問題解構(gòu)為一系列模塊化的子問題,從而形成流程化的問題解決模式。如關(guān)于個人身份信息檢測,項目團隊對這一問題進(jìn)行了模型建構(gòu),設(shè)計了初始PII檢測算法的流程圖。首先,判斷索引卡中姓名是否為日文名稱,如果結(jié)果為真,則進(jìn)入下一流程;在FAR姓名登記表以及WRA Form26姓名登記表中查找該日文名稱,根據(jù)出生日期和監(jiān)禁日期計算年齡,以確定是否可以公開。
算法設(shè)計,將計算問題的模型以偽代碼的方式加以表達(dá),有效彌補檔案管理人員與計算機從業(yè)人員之間的專業(yè)認(rèn)知差距,便利了計算機專業(yè)人員對照需求編寫程序。一方面,利用偽代碼這一被簡化的編程語言,將問題模型轉(zhuǎn)化為算法流程。例如,為將個人身份信息檢測流程圖轉(zhuǎn)化為偽代碼,項目團隊首先學(xué)習(xí)了偽代碼編寫的相關(guān)要求和要點,隨后依照編程規(guī)則形成了專業(yè)編程人員可讀的If-Else語句。另一方面,對算法代碼進(jìn)行結(jié)構(gòu)性優(yōu)化以便于后續(xù)維護(hù)和修改。例如,在該項目實踐過程中,項目團隊采取了模塊化的計算解決方案,即將程序設(shè)計為相對獨立的代碼塊。項目團隊設(shè)計了日期檢測的代碼塊PII Datecheck、查詢Form 26姓名登記表的FORM 26_Lookup代碼塊以及查詢FAR姓名登記表的Far_Lookup代碼塊。上述代碼塊彼此獨立且可進(jìn)行計算,生成計算結(jié)果,而將其組合則可用于對個人身份信息的檢測活動。此種設(shè)計保證了對一處代碼的修改不會涉及對整體的改動,一來降低了代碼維修的時間成本,二來有助于后續(xù)功能的添加。
(4)運用多元化的技術(shù)工具
在技術(shù)意識充分融合于檔案管理的認(rèn)知時,技術(shù)應(yīng)用的關(guān)鍵在NARA的實踐中顯示為技術(shù)選擇過程中應(yīng)當(dāng)考慮實用性,并提供了兩方面的判定策略。
一是具有廣泛的應(yīng)用場景,這在有效降低技術(shù)工具使用成本的同時也有助于提升項目人員對技術(shù)工具的熟練程度。例如,DCIC開展的諸多實踐項目,選擇了開源數(shù)據(jù)清理工具OpenRefine,并在諸如個人身份信息檢測、開發(fā)姓名登記表等實踐中被多次使用。再如,基于網(wǎng)頁的用于交互計算的應(yīng)用程序Jupyter Notebook,一方面,DCIC將其用于多個實踐項目的代碼編寫與調(diào)試;另一方面,其內(nèi)容都以文檔形式加以保存,從而便于DCIC與利益相關(guān)者進(jìn)行有效的交流與溝通。
二是解決問題的針對性如何。一方面,在現(xiàn)有問題相對普遍的情況下,可直接利用現(xiàn)有技術(shù)工具進(jìn)行解決。例如,在數(shù)據(jù)鏈接與可視化的實踐項目中,有一個小組需要實現(xiàn)對實體的關(guān)聯(lián),而圖數(shù)據(jù)庫Neo4j在這方面具有成熟的經(jīng)驗,故該小組直接基于圖數(shù)據(jù)庫Neo4j,將項目團隊在GATE中提取并存儲在數(shù)據(jù)庫中的人員、組織或事件等實體及其物理關(guān)系存儲在一起,從而建立一個社交網(wǎng)絡(luò),用于數(shù)據(jù)分析等操作。同時,實踐顯示,若問題為實踐過程中獨有的問題,則需通過自行開發(fā)的方式加以解決。項目中最為典型的實踐即個人身份信息檢測工具的設(shè)計與開發(fā)工作。由于個人身份信息檢測中剔除18歲及以下的索引卡這一需求過于具體,市面上的大多數(shù)程序都無法直接適用,故在實踐中選擇自主開發(fā)。
計算檔案學(xué)的實踐項目從認(rèn)識和行動兩個層面顯示了檔案領(lǐng)域與數(shù)字技術(shù)可持續(xù)融合的無限空間。例如,于我國而言,在數(shù)字檔案館全國聯(lián)動建設(shè)、電子文件單軌制管理為數(shù)字中國建設(shè)所驅(qū)動等背景下,檔案領(lǐng)域的數(shù)字轉(zhuǎn)型亟待完備的理論體系支撐與系統(tǒng)的行動策略指導(dǎo)。計算檔案學(xué)于全球范圍內(nèi)亦有較大的發(fā)展必要性與空間,NARA的探索項目從整體上顯示了計算檔案學(xué)兼具理論與實踐的內(nèi)涵及相應(yīng)的行動內(nèi)容,并提供了可供參考的經(jīng)驗與待深化和擴充的方向。
3.1有待系統(tǒng)充實的理論體系
在指導(dǎo)實踐的理論框架建構(gòu)方面,NARA充分凸顯了計算檔案學(xué)應(yīng)有的跨學(xué)科、系統(tǒng)、數(shù)據(jù)思維,可借鑒并可深化拓展的空間表現(xiàn)為:
其一,跨學(xué)科在計算檔案學(xué)中表現(xiàn)為什么內(nèi)容。盡管計算檔案學(xué)涉及的學(xué)科有多樣化的可能性,但以信息為載體跨界連接的有哪些學(xué)科、每個學(xué)科在信息與信息技術(shù)下表現(xiàn)為什么形態(tài)、各學(xué)科圍繞檔案學(xué)與計算機科學(xué)產(chǎn)生了什么樣的關(guān)系、跨學(xué)科集成的結(jié)果是什么等,還需更系統(tǒng)地認(rèn)知和說明。
其二,作為計算檔案學(xué)的核心內(nèi)容,計算思維盡管得到識別并嘗試同檔案管理融合,但無論整體的計算思維體系還是微觀的單一計算活動,仍待進(jìn)一步確認(rèn)同檔案領(lǐng)域的連接方向、相互作用關(guān)系以及連接之后的融合過程與結(jié)果。
其三,在實踐中,技術(shù)意識主要體現(xiàn)為計算機技術(shù)在檔案管理中多個重要環(huán)節(jié)的覆蓋以及在較復(fù)雜的重點環(huán)節(jié)中的主動應(yīng)用,那么將技術(shù)融合至檔案管理情境后,檔案管理的思維、方法、活動過程等將如何應(yīng)對與變革仍有待明晰。
3.2尚需完備擴充的行動策略
計算檔案學(xué)作為面向應(yīng)用的跨學(xué)科事物,落實行動的策略亦是不可或缺的部分,NARA的實踐立足于經(jīng)驗之上并提供了明確方向:
一是如何實現(xiàn)跨領(lǐng)域多主體的協(xié)同參與。首先,從眾多實踐行動來看,跨領(lǐng)域多主體的共同參與已成為該領(lǐng)域的發(fā)展趨勢,如何吸納多方主體和跨領(lǐng)域人才的加入、實現(xiàn)與多元主體的有效溝通、保證不同領(lǐng)域的專業(yè)性的同時維護(hù)檔案的核心地位等,均待探索。二是計算檔案學(xué)呈現(xiàn)出的計算科學(xué)范式下,規(guī)范化問題解決流程如何同已有的檔案管理流程全方位融合問題逐步凸顯,這在于以管理為中心的流程設(shè)計如何同以建模、算法設(shè)計等以工具為中心的方法有效結(jié)合,且結(jié)合之后重構(gòu)的檔案管理體系為何等,均需進(jìn)一步確認(rèn)。三是如何對技術(shù)工具的精準(zhǔn)應(yīng)用提出更高要求,即技術(shù)與檔案問題的匹配如何實現(xiàn)最優(yōu)化,技術(shù)背后的社會文化本質(zhì)如何被深度理解,技術(shù)的使用方法是什么,技術(shù)如何成為檔案管理中常規(guī)穩(wěn)定的模塊得以自動化使用等,有待明晰。
*本文系2018年國家社會科學(xué)基金項目“基于多元數(shù)字技術(shù)的網(wǎng)絡(luò)空間參與式歸檔研究”(項目編號:18CTQ037)階段性研究成果。
[1]國家檔案局.國家檔案局舉辦區(qū)塊鏈技術(shù)視頻專題講座[EB/OL].[2020-08-12].http://www.saac.gov.cn/daj/yaow/202006/488af1411812435ea7f3ac5ebefff7f1.shtml.
[2]傅天珍,鄭江平.計算檔案學(xué)的興起、探索與啟示[J].檔案學(xué)通訊,2019(4):28-33.
[3][10]Chen Z , Zhu Y.PersonalArchive Service System using Blockchain Technology:Case Study,Promising and Challenging[C]//IEEE International Conference on AI & Mobile Services. Honolulu:IEEE,2017:93-99.
[4]周耀林,朱倩.大數(shù)據(jù)時代我國數(shù)字檔案館的建設(shè)與發(fā)展[J].信息資源管理學(xué)報,2015(2): 108-113.
[5]于英香.檔案大數(shù)據(jù)研究熱的冷思考[J].檔案學(xué)通訊,2015(2):4-8.
[6]陶水龍.大數(shù)據(jù)視野下檔案信息化建設(shè)的新思考[J].檔案學(xué)研究,2017(3):93-99.
[7]王蘭成,劉曉亮.網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識挖掘技術(shù)研究[J].浙江檔案,2013(10): 14-19.
[8]Lee C. Computer-Assisted Appraisal and Selection of Archival Materials[C]// IEEE International Conference on Big Data(Big Data).IEEE,2018:2721-2724.
[9]Post C,Chassanoff A,Lee C,et al.Digital Curation at Work: Modeling Workflows for Digital Archival Materials[C]//Proceedings of the 19th ACM/IEEE Joint Conference on Digital Libraries(JCDL). New York:IEEE,2019:39-48.
[11]LEMIEUX V L.A typology of blockchain recordkeeping solutions and some reflections on their implications for the future of archival preservation[C/OL].[2020-08-12].https: //www. researchgate.net/publication/322511343.