黃永勤 楊安蓮 平碩/國(guó)防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系
紅色檔案指中國(guó)共產(chǎn)黨成立以來(lái),領(lǐng)導(dǎo)機(jī)關(guān)組織[1]和帶領(lǐng)廣大人民群眾在革命戰(zhàn)爭(zhēng)、社會(huì)主義建設(shè)、改革開放、新時(shí)代等各階段[2]矢志奮斗實(shí)現(xiàn)中華民族偉大復(fù)興進(jìn)程中形成的能體現(xiàn)黨的初心使命并且具有保存價(jià)值的各種文字、圖表、聲像等不同形式的歷史記錄。紅色檔案具有客觀原始史料、內(nèi)容信息豐富、紅色價(jià)值導(dǎo)向、教育意義深刻、情感走心共鳴等特點(diǎn),是傳承紅色基因和賡續(xù)紅色血脈的重要載體。深度開發(fā)紅色檔案,開展知識(shí)服務(wù)能更好地滿足社會(huì)公眾多元化、個(gè)性化、知識(shí)化、深度化、智能化的利用需求,更好地服務(wù)社會(huì)經(jīng)濟(jì)建設(shè)、弘揚(yáng)革命傳統(tǒng)文化、強(qiáng)化主流價(jià)值引導(dǎo)、抵制歷史虛無(wú)主義、提高政治教育實(shí)效。
從紅色檔案開發(fā)與知識(shí)服務(wù)的理論研究看。檔案知識(shí)服務(wù)的研究重點(diǎn)包括:一是從理論研究維度探討相關(guān)概念、方法、機(jī)制等;二是從技術(shù)實(shí)踐維度討論檔案資源整合、館際資源利用、服務(wù)模式等[3]。目前相關(guān)研究多聚焦紅色檔案的生成機(jī)理、價(jià)值意蘊(yùn)、開發(fā)路徑等,從知識(shí)服務(wù)的視角探索紅色檔案利用的成果很少,應(yīng)用“本體”開展“檔案知識(shí)服務(wù)”的研究也較少。
從紅色檔案開發(fā)與知識(shí)服務(wù)的應(yīng)用實(shí)踐看,還存在以下不足:一是紅色檔案資源整合不足。檔案館一般局限于本單位的資源開發(fā)紅色檔案,缺乏跨館、互聯(lián)網(wǎng)等資源的整合,資源建設(shè)方面存在“擁而難用、匯而不慧”的現(xiàn)象。二是紅色檔案開發(fā)深度欠缺,目前紅色檔案的開發(fā)主要以傳統(tǒng)的編研和檢索利用為主,已愈發(fā)難以滿足用戶對(duì)精準(zhǔn)化/精細(xì)化數(shù)據(jù)分析、智慧搜索、自動(dòng)問(wèn)答、個(gè)性化推薦等知識(shí)性、深層次、智能化的信息需求。三是紅色檔案服務(wù)模式單一,有研究指出紅色檔案“敘事碎片化[4]”的問(wèn)題,其根源還是紅色檔案的知識(shí)服務(wù)能力欠缺。
知識(shí)服務(wù)是解決紅色檔案開發(fā)利用與檔案用戶信息需求不匹配矛盾的重要途徑,而“本體”是實(shí)現(xiàn)該目標(biāo)的最佳方案之一,本文試圖引入本體理論,探索其在紅色檔案知識(shí)服務(wù)的應(yīng)用,以期為實(shí)踐提供有益參考。
本體(Ontology)源于西方哲學(xué)領(lǐng)域的“存在論”,是共享概念模型明確的形式化規(guī)范說(shuō)明[5],相關(guān)國(guó)際標(biāo)準(zhǔn)[6-7]進(jìn)一步指出本體是規(guī)定知識(shí)域中具體或抽象事物及其關(guān)系的規(guī)范。有學(xué)者[8]將本體在信息行業(yè)的作用概括為:支持標(biāo)引、檢索、組織與瀏覽,以及充當(dāng)知識(shí)庫(kù),提供知識(shí)服務(wù)。基于本體的紅色檔案知識(shí)服務(wù)是在用戶興趣模型和紅色檔案知識(shí)庫(kù)的基礎(chǔ)之上構(gòu)建用戶(需求)本體和知識(shí)本體,并基于本體映射機(jī)制、語(yǔ)義表示、邏輯推理等特性開展的相關(guān)知識(shí)服務(wù)應(yīng)用。具體而言,主要包含以下內(nèi)容:
依據(jù)前述定義,基于本體的紅色檔案知識(shí)服務(wù)模型如圖1所示,主要包括以下部分:
圖1 基于本體的紅色檔案知識(shí)服務(wù)模型
1.1.1 從需求視角看。通過(guò)分析檔案用戶基本信息、行為信息等歸納并構(gòu)建基于(需求)本體的用戶興趣模型。一是用戶興趣模型,旨在精確全面描述檔案用戶個(gè)性化需求,具體包括模型表示、模型初始化、模型進(jìn)化等內(nèi)容[9]。模型基于本體語(yǔ)義表示、知識(shí)推理等,其在結(jié)構(gòu)化形式、興趣信息采集、智能處理、動(dòng)態(tài)進(jìn)化等方面優(yōu)勢(shì)顯著。二是需求本體,基于概念層次結(jié)構(gòu)和推理分析,一方面可實(shí)現(xiàn)將用戶自然語(yǔ)言轉(zhuǎn)換為形式化、概念化、層次化、機(jī)器可讀的檔案用戶需求,實(shí)現(xiàn)與知識(shí)本體的映射;另一方面也可實(shí)現(xiàn)用戶需求語(yǔ)義化、結(jié)構(gòu)化存儲(chǔ)和表示,挖掘用戶潛在需求,優(yōu)化用戶興趣模型。
1.1.2 從資源視角看。一是信息采集,用本體轉(zhuǎn)換非結(jié)構(gòu)化、半結(jié)構(gòu)化檔案信息資源為結(jié)構(gòu)化存儲(chǔ)知識(shí),并精確描述知識(shí)內(nèi)容及其關(guān)聯(lián),解決紅色檔案資源類型多的問(wèn)題。二是知識(shí)表示,用本體描述語(yǔ)言序化、結(jié)構(gòu)化異源異構(gòu)檔案信息,將其轉(zhuǎn)換為可共享、互操作的形式化知識(shí),解決紅色檔案資源的信息集成問(wèn)題。三是知識(shí)組織,基于本體映射機(jī)制、語(yǔ)義標(biāo)注等方法組織和集成相關(guān)檔案資源并導(dǎo)入本體知識(shí)庫(kù),解決紅色檔案資源的信息組織問(wèn)題。四是知識(shí)存儲(chǔ),構(gòu)建紅色檔案領(lǐng)域本體和知識(shí)庫(kù)。五是知識(shí)更新,關(guān)聯(lián)、更新紅色檔案領(lǐng)域本體、知識(shí)庫(kù)等。
1.1.3 從服務(wù)視角看。一是服務(wù)機(jī)制,將用戶瀏覽、提問(wèn)、交互、檢索行為等需求通過(guò)用戶興趣模型調(diào)用需求本體,并通過(guò)映射機(jī)制關(guān)聯(lián)到知識(shí)本體,爾后知識(shí)本體調(diào)用知識(shí)庫(kù)資源為用戶提供服務(wù)。二是服務(wù)方式,目前常提供知識(shí)圖譜分析、個(gè)性化定制、知識(shí)導(dǎo)航、知識(shí)問(wèn)答、知識(shí)推薦、知識(shí)檢索等。三是服務(wù)反饋,服務(wù)與評(píng)價(jià)形成閉環(huán)管理,便于優(yōu)化服務(wù)方式、用戶興趣模型和本體庫(kù)。
1.2.1描述語(yǔ)言。一是基于Web本體描述語(yǔ)言,如SGML、SHOE、XML、RDF、RDF(s)、DAML、OIL、OWL、XOL等。二是基于謂詞邏輯本體描述語(yǔ)言,如KIF、Ontolingua、Loom、Flogic、Cycl、OCML等。三是基于圖本體描述語(yǔ)言,如概念圖、WordNet語(yǔ)義網(wǎng)絡(luò)等。其中XML、OWL、RDF和RDF(s)等在檔案領(lǐng)域本體構(gòu)建過(guò)程中廣受青睞。
1.2.2 構(gòu)建原則。最具影響力的是Gruber[10]提出的五條標(biāo)準(zhǔn),即清晰性、完整性、一致性、可擴(kuò)展性和最小約束性?,F(xiàn)實(shí)情況中一般多靈活選擇,檔案領(lǐng)域可采用國(guó)際標(biāo)準(zhǔn)ISO 21127:2014(E)《信息與文獻(xiàn)——文化遺產(chǎn)信息交換參考本體》提出的建模原則:?jiǎn)握{(diào)(推理)性、(本體)最小化、(屬性)簡(jiǎn)便性、(類)不相交性、類型關(guān)聯(lián)性、動(dòng)態(tài)擴(kuò)展性、內(nèi)容完整性[11]。
1.2.3 構(gòu)建工具。一是基于Web本體描述語(yǔ)言的工具,如Protégé、OILEd、OntoEdit等。二是基于謂詞邏輯本體描述語(yǔ)言的工具,如Ontolingua、WebOnto等[12]。其中斯坦福大學(xué)開發(fā)的開源軟件Protégé是國(guó)內(nèi)檔案領(lǐng)域本體構(gòu)建最常用的工具,其支持XML、RDF(s)、OWL、Flogic等多種描述語(yǔ)言。
1.2.4 構(gòu)建方法。常用的方法包括TOVE法、骨架法、METHONTOLOGY法、DEFS法、KACTUS法、SENSUS法、IDEF5法、七步法等。不同方法各有優(yōu)劣,實(shí)際中多依據(jù)具體項(xiàng)目、領(lǐng)域特點(diǎn)等進(jìn)行選擇,其中“七步法”是國(guó)內(nèi)檔案領(lǐng)域本體構(gòu)建最常用的方法。
1.3.1 體系結(jié)構(gòu)。一是B/S體系結(jié)構(gòu),其靈活易維護(hù),但服務(wù)器負(fù)荷重且安全性一般,一般包含數(shù)據(jù)層、業(yè)務(wù)層、應(yīng)用層,并有相應(yīng)接口完成層間交互。二是C/S體系結(jié)構(gòu),其數(shù)據(jù)管理透明,但維護(hù)成本較高,一般包含客戶端和服務(wù)器端,對(duì)客戶端要求較高。三是聯(lián)合存儲(chǔ),為保證知識(shí)服務(wù)效率,一般在數(shù)據(jù)層基礎(chǔ)之上采取本體庫(kù)、知識(shí)庫(kù)、用戶模型庫(kù)的聯(lián)合存儲(chǔ)模式。
1.3.2 功能模塊。一是知識(shí)輸入模塊,主要采集領(lǐng)域知識(shí)、用戶興趣和行為信息等。二是業(yè)務(wù)處理模塊,包括用戶需求建模、知識(shí)管理、檔案檢索、知識(shí)推理等。三是服務(wù)輸出模塊,包括結(jié)果顯示、評(píng)價(jià)反饋等。
1.3.3 架構(gòu)流程。一是構(gòu)建知識(shí)庫(kù),通過(guò)對(duì)知識(shí)資源進(jìn)行收集、處理,完成語(yǔ)義標(biāo)注,構(gòu)建紅色檔案領(lǐng)域本體知識(shí)庫(kù)。二是構(gòu)建用戶興趣模型,基于用戶行為抽取信息偏好、特征存入用戶(需求)本體庫(kù)。三是服務(wù)應(yīng)用,處理用戶檢索請(qǐng)求、檢索知識(shí)、匹配結(jié)果等。四是服務(wù)優(yōu)化,收集顯性和隱性的反饋信息,修正紅色檔案領(lǐng)域本體和用戶需求模型。
“抗美援朝精神”是中央宣傳部梳理的第一批中國(guó)共產(chǎn)黨人精神譜系的偉大精神,2020年習(xí)近平總書記在紀(jì)念中國(guó)人民志愿軍抗美援朝出國(guó)作戰(zhàn)70周年大會(huì)講話指出:“偉大抗美援朝精神跨越時(shí)空、歷久彌新,必須永續(xù)傳承、世代發(fā)揚(yáng)”?!翱姑涝瘧?zhàn)爭(zhēng)”紅色檔案是銘記歷史、弘揚(yáng)精神和資政育人的珍貴資源,調(diào)研發(fā)現(xiàn)黨政機(jī)關(guān)、黨史研究、思政教育等領(lǐng)域?qū)Υ擞袕?qiáng)烈的檔案利用和知識(shí)服務(wù)需求?;谇拔年U述的服務(wù)模型、本體構(gòu)建和架構(gòu)體系,本研究以共產(chǎn)黨員網(wǎng)《抗美援朝大事記》、抗美援朝紀(jì)念館館藏檔案等數(shù)據(jù)為例,探索紅色檔案知識(shí)服務(wù)的應(yīng)用場(chǎng)景。
一是本體設(shè)計(jì)。知識(shí)表示描述語(yǔ)言選擇OWL,構(gòu)建方法選擇“七步法”,構(gòu)建工具選擇Protégé。以RiC-CM和CIDOC-CRM本體概念框架作為主要標(biāo)準(zhǔn),提煉出“時(shí)間”“地點(diǎn)”“參戰(zhàn)部隊(duì)”“參戰(zhàn)人員”“戰(zhàn)役”等核心概念集作為“抗美援朝戰(zhàn)爭(zhēng)”紅色檔案領(lǐng)域本體的頂層概念和規(guī)則,爾后進(jìn)一步細(xì)化描述和實(shí)例化。本體概念模型如圖2所示,主要包含概念層、實(shí)例層、內(nèi)容層三個(gè)方面。二是知識(shí)采集?;凇翱姑涝瘧?zhàn)爭(zhēng)”紅色檔案領(lǐng)域本體,采集和轉(zhuǎn)換非結(jié)構(gòu)化的檔案信息為結(jié)構(gòu)化存儲(chǔ)知識(shí)并精準(zhǔn)描述知識(shí)內(nèi)容及上下文關(guān)聯(lián),如圖2內(nèi)容層所示,主要關(guān)聯(lián)到具體的檔案資源,包括照片檔案(作戰(zhàn)場(chǎng)景)、實(shí)物檔案(繳獲的“北極熊團(tuán)”團(tuán)旗)、文書檔案(電報(bào)、戰(zhàn)斗經(jīng)驗(yàn)總結(jié)等)、專業(yè)檔案(作戰(zhàn)態(tài)勢(shì)圖等)。三是知識(shí)組織。利用本體映射規(guī)則、語(yǔ)義標(biāo)注方法等構(gòu)建知識(shí)鏈接關(guān)系,如圖2實(shí)例層所示,提煉并組織檔案信息中的知識(shí)及關(guān)系,圖中描述了“新興里進(jìn)攻戰(zhàn)斗”的相關(guān)實(shí)例,包括參戰(zhàn)部隊(duì)“志愿軍第27軍”和“美第31團(tuán)級(jí)戰(zhàn)斗隊(duì)”、參戰(zhàn)人員“彭德清”和“麥克里安”等。
圖2 “抗美援朝戰(zhàn)爭(zhēng)”紅色檔案領(lǐng)域本體概念模型示意圖
查詢檢索是基于本體的紅色檔案知識(shí)服務(wù)最為重要的應(yīng)用場(chǎng)景,可實(shí)現(xiàn)以下服務(wù):一是知識(shí)檢索。如圖2所示,以“新興里進(jìn)攻戰(zhàn)斗”為例,借助Protégé工具中的OntoGraf插件可實(shí)現(xiàn)知識(shí)的拓展檢索,如檢索“彭德清”,可以得到與其相關(guān)的人物,其實(shí)例周邊有“參戰(zhàn)人員”類,有“中國(guó)人民志愿軍”“第9兵團(tuán)”“第27軍”“新興里進(jìn)攻戰(zhàn)斗”等實(shí)例,且每個(gè)類或?qū)嵗加袔Ъ^的實(shí)線或虛線相連接。二是擴(kuò)展檢索。展開“第9兵團(tuán)”與“第27軍”、“第27軍”與“新興里進(jìn)攻戰(zhàn)斗”的實(shí)例可以發(fā)現(xiàn)二者之間的隸屬和參與關(guān)系,同時(shí)可以逆向推理出其領(lǐng)導(dǎo)關(guān)系和涉及關(guān)系,由此實(shí)現(xiàn)本體概念模型的推理功能和擴(kuò)展檢索。三是用戶畫像。依據(jù)檔案用戶檢索行為,可進(jìn)一步更新優(yōu)化用戶興趣模型,并結(jié)合需求本體構(gòu)建用戶畫像,當(dāng)前主要采用基于概念標(biāo)簽的用戶畫像方法,后續(xù)可深化為基于深度學(xué)習(xí)的用戶畫像模型,以解決當(dāng)前紅色檔案利用服務(wù)停留在基于檔案用戶共性需求普適化層面,無(wú)法關(guān)聯(lián)用戶行為特點(diǎn)、精準(zhǔn)滿足新媒體環(huán)境下用戶個(gè)性化和差異化需求的困境。四是評(píng)價(jià)反饋。主要思路為通過(guò)檔案用戶提交的檢索行為和系統(tǒng)反饋的檔案知識(shí),進(jìn)一步計(jì)算需求本體和知識(shí)本體的相似度,具體包括本體概念相似度和本體關(guān)系相似度兩個(gè)維度的計(jì)算[13],相似度計(jì)算結(jié)果越高表明兩個(gè)本體越相似,也表明“資源視角”輸出的紅色檔案知識(shí)產(chǎn)品越符合“需求視角”中的檔案用戶興趣,反之則可以進(jìn)一步優(yōu)化用戶興趣模型和紅色檔案知識(shí)庫(kù)的資源管理,以更好響應(yīng)檔案用戶的需求。
本體作為知識(shí)圖譜生命周期中“知識(shí)框架”的基礎(chǔ),亦是知識(shí)圖譜構(gòu)建的核心。本研究在“抗美援朝戰(zhàn)爭(zhēng)”紅色檔案領(lǐng)域本體的基礎(chǔ)上,進(jìn)一步完成知識(shí)融合、圖譜存儲(chǔ)、圖譜索引等環(huán)節(jié),形成了“抗美援朝戰(zhàn)爭(zhēng)”紅色檔案知識(shí)圖譜,并開發(fā)了原型服務(wù)系統(tǒng)。初步實(shí)現(xiàn)了以下服務(wù)應(yīng)用:一是知識(shí)導(dǎo)航。以可視化的方式展示知識(shí)的分布與關(guān)聯(lián),圖中實(shí)體檢索“毛澤東”,其中之一的檢索結(jié)果展示了“毛澤東致電關(guān)系”的知識(shí)圖譜片段,可發(fā)現(xiàn)“彭德懷”“宋時(shí)輪”“高崗”等與“毛澤東”存在致電關(guān)系,同時(shí)圖譜中每個(gè)節(jié)點(diǎn)可以作為新的檢索點(diǎn),進(jìn)一步導(dǎo)航知識(shí)片段。二是資源鏈接。檢索結(jié)果不僅能展示相關(guān)實(shí)體,還可點(diǎn)擊鏈接,關(guān)聯(lián)與該實(shí)體對(duì)應(yīng)的相關(guān)文檔、圖片、音視頻等素材,方便用戶直接瀏覽原始檔案,圖中展示了“彭德懷”實(shí)體對(duì)應(yīng)的原始照片檔案。三是知識(shí)問(wèn)答。區(qū)別于傳統(tǒng)以“關(guān)鍵詞”為主要字段的檔案檢索,知識(shí)圖譜服務(wù)系統(tǒng)能夠基于本體的推理,完成自然語(yǔ)言形式的問(wèn)答互動(dòng),圖中展示了用戶通過(guò)自然語(yǔ)言提問(wèn)“毛澤東都跟誰(shuí)致過(guò)電”和系統(tǒng)智能回答:“賀晉年、陶勇、宋時(shí)輪……”;進(jìn)一步追問(wèn)“毛澤東致電周恩來(lái)說(shuō)了什么內(nèi)容”,系統(tǒng)會(huì)通過(guò)需求本體映射知識(shí)本體,進(jìn)而調(diào)用知識(shí)庫(kù)中的檔案知識(shí),回答通話的具體內(nèi)容:“指示要及時(shí)補(bǔ)充兵力連續(xù)作戰(zhàn)……”。四是知識(shí)推薦。依據(jù)檔案用戶的提問(wèn)和檢索行為,系統(tǒng)可依據(jù)前文所述的用戶模型和用戶畫像,推薦相關(guān)個(gè)性化知識(shí)服務(wù),如圖中所示,系統(tǒng)自動(dòng)向用戶推薦“想了解:毛澤東與彭德懷通話內(nèi)容嗎”,若用戶需要可點(diǎn)擊該問(wèn)題鏈接,系統(tǒng)會(huì)通過(guò)需求本體和知識(shí)本體調(diào)用檔案知識(shí)庫(kù)并自動(dòng)回答。
大數(shù)據(jù)時(shí)代,信息爆炸式增長(zhǎng)與用戶有限資源處理能力的矛盾愈發(fā)突出,“認(rèn)知過(guò)載”“知識(shí)迷航”的現(xiàn)象日益普遍,傳統(tǒng)的檔案信息服務(wù)已愈發(fā)難以滿足用戶多元化、精細(xì)化、知識(shí)化、智能化的需求。人工智能、元宇宙等新技術(shù)和新理念正加速各行各業(yè)向“數(shù)智”的變革升級(jí),知識(shí)管理替代信息管理、知識(shí)服務(wù)替代信息服務(wù)已成大勢(shì)所趨?!丁笆奈濉比珖?guó)檔案事業(yè)發(fā)展規(guī)劃》便提出:積極探索知識(shí)管理、人工智能、數(shù)字人文等技術(shù)在檔案信息深層加工和利用中的應(yīng)用。本體是知識(shí)管理的基石,也是解決個(gè)性化、智能化、精準(zhǔn)化知識(shí)服務(wù)的最佳方案之一,本文創(chuàng)新性地提出了構(gòu)建基于本體的紅色檔案知識(shí)服務(wù)模型,并以“抗美援朝戰(zhàn)爭(zhēng)”紅色檔案為例進(jìn)行了相關(guān)開發(fā)利用的探索。后續(xù)研究可進(jìn)一步關(guān)注以下幾個(gè)方向:一是融入知識(shí)圖譜構(gòu)建鏈條,知識(shí)圖譜強(qiáng)大的深度知識(shí)推理和逐步擴(kuò)展認(rèn)知的能力,已成為助推紅色檔案信息資源深度開發(fā)的關(guān)鍵技術(shù),而本體作為知識(shí)圖譜構(gòu)建的重要環(huán)節(jié),可進(jìn)一步整合檔案領(lǐng)域的知識(shí)本體,積極向知識(shí)圖譜應(yīng)用轉(zhuǎn)化。二是支撐檔案數(shù)字人文研究,紅色檔案應(yīng)重視“非物質(zhì)”特征的活態(tài)傳承,但目前紅色檔案資源還處在整合、開發(fā)和利用程度較低的層次,本體理論可支撐數(shù)字人文視角下紅色檔案元數(shù)據(jù)、采集方法、數(shù)據(jù)治理、呈現(xiàn)方式等領(lǐng)域的研究。三是探索人工智能技術(shù)應(yīng)用,本體是機(jī)器學(xué)習(xí)和人工智能技術(shù)的重要理論根基,未來(lái)可關(guān)注利用人工智能技術(shù)探索檔案數(shù)據(jù)的自動(dòng)分類組織、檔案本體的智能構(gòu)建、檔案知識(shí)庫(kù)與用戶模型的自主更新等。
本文系國(guó)家社科基金軍事學(xué)青年項(xiàng)目“聯(lián)合作戰(zhàn)中開源軍事情報(bào)保障研究”(2019-SKJJ-C-064);國(guó)家社科基金青年項(xiàng)目“‘互聯(lián)網(wǎng)+’背景下多媒體檔案知識(shí)發(fā)現(xiàn)研究”(19CTQ033)階段性成果之一