舒忠梅 張 萍 李小霞 張珊瑜 周 純 劉一凡/中山大學(xué)檔案館
檔案是建構(gòu)集體記憶重要且不可替代的要素,數(shù)字檔案是檔案資源的重要組成,開發(fā)是構(gòu)建檔案資源的基本途徑之一[1][2]。特里·庫克將西方檔案觀念與戰(zhàn)略的變化歸納為證據(jù)、記憶、認(rèn)同和社會(huì)等四個(gè)范式[3],強(qiáng)調(diào)檔案兼具保存記憶和選擇構(gòu)建記憶的雙重功能[4]。檔案記憶理論作為檔案學(xué)的新范式,讓我們將檔案現(xiàn)象置于社會(huì)記憶解釋框架中進(jìn)行重新審視和闡釋,從而獲得學(xué)術(shù)新知[5]。從本質(zhì)上而言,數(shù)字記憶是“運(yùn)用新興數(shù)字技術(shù)對(duì)承載記憶屬性的檔案資源進(jìn)行開發(fā)利用的一種建構(gòu)活動(dòng)”[6],是“現(xiàn)代信息技術(shù)與社會(huì)記憶建構(gòu)有機(jī)結(jié)合的產(chǎn)物”[7]。在數(shù)字化轉(zhuǎn)型背景下,檔案館及檔案專業(yè)人員肩負(fù)著保存和構(gòu)建數(shù)字記憶的重要責(zé)任,探究檔案工作如何助力于構(gòu)建數(shù)字記憶在當(dāng)前形勢(shì)下十分必要[8]。
檔案記憶已成為檔案學(xué)界研究關(guān)注的熱點(diǎn)問題。已有研究主要集中在檔案記憶理論[9]、檔案數(shù)字記憶建構(gòu)[10][11]、檔案記憶與身份認(rèn)同的關(guān)系[12][13]、非物質(zhì)文化遺產(chǎn)的檔案記憶[14]、數(shù)字檔案記憶資源的整合和開發(fā)理論探索[15]等方面,呈現(xiàn)出多元化研究態(tài)勢(shì)。然而,現(xiàn)有研究尚未涉及重大社會(huì)事件檔案的數(shù)字記憶開發(fā)利用等實(shí)踐探索。2020年新型冠狀病毒肺炎疫情暴發(fā),成為我國(guó)乃至全世界范圍內(nèi)的一次重大社會(huì)事件[16]。疫情檔案的整合管理及利用對(duì)疫情預(yù)警與防控的重要性日益凸顯[17]。已有文獻(xiàn)從記憶視角下探討了新冠肺炎疫情檔案收集策略[18][19],從協(xié)同治理視角和多個(gè)維度探討了疫情檔案管理協(xié)同框架的構(gòu)建[20],但鮮有關(guān)于疫情檔案開發(fā)的實(shí)踐研究。為此,本文將以中山大學(xué)新冠肺炎防控專題網(wǎng)站歸檔資源為案例,創(chuàng)新性地從檔案內(nèi)容發(fā)現(xiàn)與細(xì)粒度的數(shù)據(jù)挖掘相結(jié)合的業(yè)務(wù)實(shí)踐與信息技術(shù)視角,建立抗疫專題檔案本體與數(shù)據(jù)庫,構(gòu)建中大記“疫”檔案知識(shí)圖譜和檔案實(shí)體關(guān)聯(lián)與推理機(jī)制,指導(dǎo)整理檔案專題編研成果,為檔案數(shù)字記憶資源開發(fā)與數(shù)字人文研究提供實(shí)踐參考。
中山大學(xué)服務(wù)國(guó)家防疫防控工作大局,從2020年1月24日除夕夜開始,學(xué)校以最快速度、最大限度集中醫(yī)科優(yōu)勢(shì),從附屬第一醫(yī)院、孫逸仙紀(jì)念醫(yī)院、附屬第三醫(yī)院、腫瘤防治中心等先后抽調(diào)512名精銳醫(yī)護(hù)人員馳援湖北武漢,占廣東援鄂醫(yī)護(hù)人員總數(shù)四分之一,贏得“無敵中山醫(yī)”美譽(yù)。此外,中山大學(xué)還選派醫(yī)療專家支援省內(nèi)各地及綏芬河、烏魯木齊、喀什、泉州、北京、香港等地疫情防控,選派醫(yī)務(wù)人員參加香港和北京的核酸檢測(cè)工作,另有6名醫(yī)療專家遠(yuǎn)赴塞爾維亞支援抗疫[21]。
為全面展現(xiàn)疫情過程中形成的且具有保存價(jià)值的文字、圖像、聲像、影像等不同載體和形態(tài)的原始記錄,學(xué)校建設(shè)中山大學(xué)新冠肺炎防控專題網(wǎng)站(下簡(jiǎn)稱“抗疫專題網(wǎng)站”,網(wǎng)址為https://fyztw.sysu.edu.cn/),網(wǎng)站設(shè)有社會(huì)關(guān)注、媒體報(bào)道、工作動(dòng)態(tài)、基層行動(dòng)、防治知識(shí)、思政課自主學(xué)習(xí)和研修專題等內(nèi)容,并以專題檔案方式進(jìn)行歸檔。檔案數(shù)據(jù)資源為開展數(shù)字記憶等數(shù)字人文研究提供了關(guān)鍵資源,在數(shù)字人文與檔案融合發(fā)展推動(dòng)下,僅以檔案原貌呈現(xiàn)的傳統(tǒng)檔案利用方式已不能滿足新時(shí)代用戶個(gè)性化的利用需求。針對(duì)抗疫檔案來源分散和多元異構(gòu)特征,以抗疫專題網(wǎng)站歸檔資源為基礎(chǔ),構(gòu)建抗疫專題檔案本體和抗疫專題檔案數(shù)據(jù)庫,進(jìn)一步通過知識(shí)圖譜可視化地開發(fā)防疫防控檔案數(shù)字記憶資源。
實(shí)體及其關(guān)聯(lián)是數(shù)字記憶視角下開發(fā)檔案資源的關(guān)鍵,是檔案知識(shí)獲取、知識(shí)表示和知識(shí)推理的基礎(chǔ),采用本體對(duì)存在潛在關(guān)聯(lián)的檔案數(shù)據(jù)資源建模,探索發(fā)現(xiàn)檔案數(shù)據(jù)資源的抽象本質(zhì),獲取檔案領(lǐng)域知識(shí)[22]。鑒于數(shù)字記憶具有來源復(fù)雜、異構(gòu)多粒度等特征,可按照主題、事件、機(jī)構(gòu)、人員、時(shí)間、地點(diǎn)等不同維度對(duì)其進(jìn)行多維劃分。采用網(wǎng)絡(luò)爬蟲、文本抽取等技術(shù),從抗疫專題網(wǎng)站網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù)中,抽取時(shí)間、地點(diǎn)、人物、事件、機(jī)構(gòu)、主題等核心概念,抽象出組織機(jī)構(gòu)、附屬醫(yī)院、二級(jí)單位、員工、馳援對(duì)象、馳援批次、一線入黨、表彰、城市、日期等本體,識(shí)別本體之間繼承、實(shí)例化等關(guān)聯(lián)關(guān)系,構(gòu)建抗疫專題檔案本體模型。
在抗疫專題檔案本體模型基礎(chǔ)上建立抗疫專題檔案數(shù)據(jù)庫。右圖為抗疫專題檔案數(shù)據(jù)庫實(shí)體及其關(guān)聯(lián)關(guān)系(E-R)模型。在數(shù)據(jù)庫模型中,為組織機(jī)構(gòu)、附屬醫(yī)院、二級(jí)單位、員工、馳援對(duì)象、馳援批次、一線入黨、表彰、城市、日期等本體分別建立數(shù)據(jù)表;本體之間的關(guān)聯(lián)映射為相應(yīng)數(shù)據(jù)表之間的關(guān)系,如馳援、參加馳援、馳援對(duì)象、馳援時(shí)間、表彰時(shí)間、表彰單位、附屬單位、單位所在地等。
從抗疫專題網(wǎng)站檔案資源中,進(jìn)一步運(yùn)用文本挖掘、標(biāo)注、語義分析及自然語言處理等技術(shù),通過實(shí)體匹配、識(shí)別與消歧處理,如將“支援”和“馳援”統(tǒng)一為“馳援”,提煉出組織機(jī)構(gòu)、時(shí)間、地點(diǎn)、人物、事件、主題等檔案實(shí)體及其關(guān)聯(lián),分別存儲(chǔ)到抗疫專題檔案數(shù)據(jù)庫所對(duì)應(yīng)的數(shù)據(jù)表中,為檔案知識(shí)圖譜開發(fā)提供底層的數(shù)據(jù)支撐。
抗疫專題檔案數(shù)據(jù)庫為構(gòu)建人、物、組織、事件等檔案實(shí)體及其之間的關(guān)聯(lián)提供數(shù)據(jù)來源,可支撐不同維度的檔案數(shù)據(jù)資源分析和深度挖掘。通過實(shí)體實(shí)例化,將組織機(jī)構(gòu)實(shí)體實(shí)例化為中山大學(xué);附屬醫(yī)院實(shí)體實(shí)例化為附屬第一醫(yī)院、孫逸仙紀(jì)念醫(yī)院、附屬第三醫(yī)院、腫瘤防治中心、附屬第五醫(yī)院、附屬第六醫(yī)院、附屬第七醫(yī)院、附屬第八醫(yī)院等;馳援對(duì)象實(shí)例化為湖北武漢漢口醫(yī)院、協(xié)和醫(yī)院西院、協(xié)和醫(yī)院腫瘤中心、同濟(jì)醫(yī)院光谷院區(qū),廣東省內(nèi)各地,綏芬河、烏魯木齊、喀什、泉州、北京、香港以及塞爾維亞等地;運(yùn)用語義分析與數(shù)據(jù)挖掘等技術(shù),構(gòu)建抗疫專題檔案知識(shí)圖譜。圖1為組織機(jī)構(gòu)、附屬醫(yī)院、馳援對(duì)象、馳援批次、城市等實(shí)體實(shí)例之間關(guān)聯(lián)的知識(shí)圖譜全景展現(xiàn)。
檔案知識(shí)圖譜為不同維度的檔案關(guān)聯(lián)及其推理提供了直觀展現(xiàn),通過知識(shí)圖譜中的間接關(guān)聯(lián)關(guān)系,可以進(jìn)行檔案知識(shí)推理和深度挖掘;通過時(shí)間或空間分析,檢索特定日期或地點(diǎn)、特定事件的先后次序和動(dòng)態(tài)發(fā)展?fàn)顩r,實(shí)現(xiàn)全面、立體、精準(zhǔn)的檔案服務(wù)。
若以馳援對(duì)象為關(guān)注點(diǎn),勾勒馳援對(duì)象檔案關(guān)聯(lián)圖,清晰地展現(xiàn)各附屬醫(yī)院與馳援對(duì)象、馳援批次與日期等之間的關(guān)聯(lián)與推理關(guān)系。如,中山大學(xué)附屬第一醫(yī)院曾馳援塞爾維亞、泉州、東莞、武漢協(xié)和醫(yī)院和漢口醫(yī)院等,孫逸仙紀(jì)念醫(yī)院曾馳援越南胡志明市、泰國(guó)曼谷、武漢協(xié)和醫(yī)院等,附屬第三醫(yī)院曾馳援武漢漢口醫(yī)院、協(xié)和醫(yī)院和同濟(jì)醫(yī)院等。武漢漢口醫(yī)院曾受附屬第一醫(yī)院、孫逸仙紀(jì)念醫(yī)院、附屬第三醫(yī)院和附屬第六醫(yī)院等單位馳援。
聚焦一線入黨知識(shí)圖譜,展現(xiàn)在抗疫斗爭(zhēng)中中山大學(xué)共有212名醫(yī)務(wù)工作者在抗疫一線光榮加入中國(guó)共產(chǎn)黨的事跡,呈現(xiàn)出入黨醫(yī)務(wù)工作者、入黨批次、日期和所屬附屬醫(yī)院等及其關(guān)聯(lián)與推理關(guān)系。
圖1:抗疫專題檔案知識(shí)圖譜
表彰知識(shí)圖譜構(gòu)建表彰稱號(hào)、表彰單位、表彰個(gè)人等及其關(guān)聯(lián)圖譜。如,2020年3月,國(guó)家衛(wèi)生健康委、人力資源社會(huì)保障部、國(guó)家中醫(yī)藥管理局三部門聯(lián)合表彰全國(guó)衛(wèi)生健康系統(tǒng)新冠肺炎疫情防控工作先進(jìn)集體和先進(jìn)個(gè)人,中山大學(xué)附屬第一醫(yī)院重癥救治醫(yī)療隊(duì)獲“全國(guó)衛(wèi)生健康系統(tǒng)新冠肺炎疫情防控工作先進(jìn)集體”稱號(hào),許可慰等10位同志獲“全國(guó)衛(wèi)生健康系統(tǒng)新冠肺炎疫情防控工作先進(jìn)個(gè)人”稱號(hào)。2020年11月4日,中山大學(xué)抗擊新冠肺炎疫情先進(jìn)事跡報(bào)告會(huì)暨表彰大會(huì)對(duì)中山大學(xué)抗擊新冠肺炎疫情26個(gè)先進(jìn)集體和1933名先進(jìn)個(gè)人進(jìn)行了表彰。
檔案作為國(guó)家治理和公共服務(wù)必不可少的重要組成部分,承載著國(guó)家、民族、社群、個(gè)體的過往歷程和集體記憶。作為檔案工作者,應(yīng)通過自身的業(yè)務(wù)活動(dòng)來傳承新時(shí)代文化記憶,充分發(fā)揮館藏檔案數(shù)據(jù)的資源優(yōu)勢(shì)。同時(shí),應(yīng)以檔案數(shù)字資源為核心對(duì)象,運(yùn)用數(shù)字人文技術(shù),系統(tǒng)、深度、精準(zhǔn)地建構(gòu)與開發(fā)利用檔案,為整理和出版專題檔案編研成果提供指導(dǎo),充分發(fā)揮檔案育人作用,服務(wù)學(xué)?!傲⒌聵淙恕敝行墓ぷ鳎蛟炀哂杏绊懥Φ奶厣珯n案數(shù)字記憶,促進(jìn)檔案資源增值。