国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于本體的橋梁文化遺產(chǎn)檔案知識圖譜構建研究 ★

2023-02-05 09:37胡慧慧趙雪芹
山西檔案 2023年6期
關鍵詞:本體圖譜文化遺產(chǎn)

胡慧慧 趙雪芹

(1.潛江市委辦公室 潛江 433100;2.湖北大學歷史文化學院 武漢 434200)

1 引言

我國橋梁建造有著非常悠久的歷史。古往今來,橋梁文化遺產(chǎn)不僅承擔著重要的交通功能,更是中華文明綿延傳承的生動見證,蘊藏著鮮活的歷史文化記憶。在國家歷史文化遺產(chǎn)保護大背景下,作為人類社會活動產(chǎn)物、且兼具景觀遺產(chǎn)、建筑遺產(chǎn)、工業(yè)遺產(chǎn)等多重屬性的橋梁文化遺產(chǎn),日益受到重視和保護。2005 年國家公布《關于加強文化遺產(chǎn)保護的通知》,強調做好文化遺產(chǎn)資源調查和登記建檔工作[1]。在此背景下,各地區(qū)有序推進“一橋一檔”策略,整理匯編橋梁建筑的文史資料、搭建可視化云端建檔平臺、開設橋梁文化遺產(chǎn)檔案線上展廳等。

近年來,隨著國家文化大數(shù)據(jù)體系建設的展開,包括檔案資源在內(nèi)的各類文化資源,已逐漸從簡單數(shù)字化階段走向數(shù)據(jù)化、關聯(lián)化、知識化的更高階段,本體、知識圖譜等知識組織技術在檔案領域得到普遍應用。雖然近年來橋梁文化遺產(chǎn)檔案開發(fā)利用工作取得了一定成果,但在橋梁文化遺產(chǎn)檔案的語義化組織與知識關聯(lián)上并沒有得到相應的重視。因此,本文基于本體探討橋梁文化遺產(chǎn)檔案知識圖譜構建,將固化在檔案資源中的知識信息以結構化概念模型進行關聯(lián)和表示,并提供檔案知識的可視化呈現(xiàn),有助于為文化遺產(chǎn)檔案知識組織與關聯(lián)提供新思路,發(fā)揮檔案資源在文化遺產(chǎn)保護與傳承中的重要作用。

2 相關研究

2.1 橋梁文化遺產(chǎn)檔案

當前關于橋梁文化遺產(chǎn)檔案的研究較少,國內(nèi)研究重點分為橋梁文化遺產(chǎn)建檔式保護和開發(fā)利用兩方面,而國外主要針對橋梁文化遺產(chǎn)本體保護。早期受重要橋梁損毀歷史經(jīng)驗教訓的影響,張傳藻就提出要“建設橋梁檔案”[2]。而后隨著世界文化遺產(chǎn)保護和申遺工作的開展,國內(nèi)學者認為完成區(qū)域內(nèi)橋梁文化遺產(chǎn)的資源普查、考證、造冊管理等工作,是籌備申報世界文化遺產(chǎn)的基礎所在。如向同明等認為要盡快以檔案式記錄保護侗族橋梁文化遺產(chǎn)的傳統(tǒng)文化和技藝[3]。黃正良認為云南古橋檔案收集范圍較為片面,應將反映橋梁文化的碑文、詩詞歌賦、傳說等非遺資料納入采集范圍[4]。王芹等提出通過搭建古橋可視化云端平臺,實現(xiàn)古橋檔案信息的網(wǎng)絡化[5]。相較而言,關于橋梁文化遺產(chǎn)檔案開發(fā)利用研究較少,從側面反映出橋梁文化遺產(chǎn)檔案資源價值挖掘和開發(fā)尚處于滯后狀態(tài)。朱曉光等結合無錫老橋視覺檔案開發(fā)利用工作實踐,闡述了編纂老橋視覺檔案專著和舉辦檔案展覽兩種開發(fā)利用方式[6]。王悅提出要強化古橋資源建設、轉變檔案開發(fā)理念、多主體協(xié)同開發(fā)、借助新興人文技術等具體措施,以此開發(fā)利用蘇州古橋檔案[7]。

2.2 檔案知識圖譜構建

知識圖譜作為數(shù)字人文背景下新興的資源組織工具,具有對知識內(nèi)容進行細粒度描述和可視化呈現(xiàn)的優(yōu)勢,能夠將單一的知識元關聯(lián)成龐大的領域知識網(wǎng)絡。因而不少學者借助知識圖譜技術來揭示和挖掘檔案資源間的內(nèi)在聯(lián)系和知識價值,并通過嚴謹?shù)膶嵶C分析驗證了知識圖譜技術在文書檔案、聲像檔案、歷史檔案等資源組織中的可行性。如趙雪芹等選取“華縣皮影”檔案進行實證,構建了符合非遺檔案活態(tài)性特征的領域知識圖譜[8]。此外,以知識圖譜為基礎展開檔案知識管理與知識服務的實踐探索也不斷涌現(xiàn),如鄧君等基于圖譜實例,展示了抗戰(zhàn)老兵口述歷史檔案資源在項目、事件、時空等維度的知識發(fā)現(xiàn),為開發(fā)口述歷史檔案多元應用場景開辟了新路徑[9]。為優(yōu)化知識圖譜相關技術,Watchira 等面向不同國家數(shù)字文化遺產(chǎn)檔案文本存在歧義、語法結構等特征,提出了一種基于單詞特征、多示例學習和關聯(lián)單詞映射來提高數(shù)據(jù)抽取技術性能的方法[10]。Ichiro 等提出了“topic thread”結構方法,能對新聞視頻檔案的主題、時間和語義關系進行抽取分析,并提供圖譜可視化界面便于用戶根據(jù)興趣有效跟蹤新聞主題發(fā)展[11]。

綜上所述,國內(nèi)外十分重視文化遺產(chǎn)的保護,都提倡為橋梁文化遺產(chǎn)建立檔案文本式記錄保護其歷史人文價值,并將數(shù)字人文領域的本體、知識圖譜等技術應用于檔案知識組織。但當前研究也存在一些不足,如對橋梁文化遺產(chǎn)檔案資源的知識組織和知識服務關注較少,在具體研究中忽視了對文化遺產(chǎn)檔案資源的適用性考慮。因此,本文基于本體模型框架,依托湖北省部分橋梁普查檔案,從數(shù)據(jù)獲取、本體映射、知識抽取、知識存儲四個環(huán)節(jié)對橋梁文化遺產(chǎn)檔案知識圖譜構建進行實證分析,從時間、人物、技藝等角度實現(xiàn)了檔案知識關聯(lián)展示,有助于揭示橋梁文化遺產(chǎn)檔案的語義內(nèi)涵和隱性知識,實現(xiàn)橋梁文化遺產(chǎn)檔案新知識的發(fā)現(xiàn)和更高價值的檔案知識服務。

3 數(shù)據(jù)來源分析

橋梁文化遺產(chǎn)檔案是指圍繞橋梁文化遺產(chǎn)實物、真實完整記錄橋梁基本形態(tài)、反映橋梁建設保護過程與橋梁工藝且具有時代價值的原始記錄材料,包括橋梁現(xiàn)狀材料、史料文獻、技術資料、保護修繕記錄、行政管理文件等。本文以湖北省已入選文物保護單位的橋梁普查性檔案作為主要數(shù)據(jù)來源,同時以相關的橋梁檔案編研成果作為數(shù)據(jù)補充。一方面是因為湖北省文物保護單位已通過調查走訪為橋梁文物建立了一套系統(tǒng)完整的檔案記錄,能充分反映橋梁文化遺產(chǎn)的建造歷史、基本測繪、保管狀況等基本信息。另一方面則是該類檔案信息提供線上查詢利用,較為容易獲取。

為克服檔案數(shù)據(jù)結構和知識結構不一致造成的知識冗余和語義歧義問題,首先從國家文物局、湖北省及地方文物局官方網(wǎng)站上獲取不可移動橋梁文物名單,從公開的基礎普查檔案資源中提取橋梁文化遺產(chǎn)的基本信息。對于橋梁建造歷史、橋梁相關人物、歷史典故等信息缺失的地方,通過地方志、《湖北橋梁》檔案編研成果以及網(wǎng)絡資源查詢進行數(shù)據(jù)補充。共采集到52 條橋梁文化遺產(chǎn)普查檔案信息,將經(jīng)過整理后的數(shù)據(jù)初步保存在EXCEL 表中,如圖1 所示。

4 橋梁文化遺產(chǎn)檔案本體設計與構建

本文采用七步法[12]構建橋梁文化遺產(chǎn)檔案領域本體,并借助Protégé 本體工具實現(xiàn)橋梁文化遺產(chǎn)檔案本體模型的可視化。由于橋梁文化遺產(chǎn)檔案涉及到文化遺產(chǎn)領域及檔案領域的概念范圍,因而在選擇復用本體標準時主要參考文化遺產(chǎn)領域和數(shù)字檔案領域的相關成熟本體,如CIDOC-CRM 模型、OAD(檔案描述本體)、事件類本體EVENT、人物類本體FOAF 等,從而提高領域本體構建效率。除此之外還要結合橋梁文化遺產(chǎn)檔案的特征,從記錄內(nèi)容中逐步抽象概括出核心概念知識,自定義命名空間,并對敘詞內(nèi)容進行補充,使構建出來的橋梁文化遺產(chǎn)檔案本體模型具有一定可擴展性[13],為本體描述概念和關系的設計提供拓展空間。

4.1 本體核心概念分析

對橋梁文化遺產(chǎn)檔案領域本體的核心概念進行分析,不僅要重視橋梁文化遺產(chǎn)檔案內(nèi)容的全面描述,還要突顯橋梁文化遺產(chǎn)的文化特性。列舉橋梁文化遺產(chǎn)檔案領域本體所涉及的重要術語和概念,一方面要關注檔案文獻領域內(nèi)的專業(yè)術語,如檔案的題名、主題、檔號、文種、資源類型、來源、形成時間、形成者、保管期限等重要概念;另一方面則要將檔案文獻中所記錄的橋梁文化遺產(chǎn)作為核心概念之一,充分調研和考察橋梁文化遺產(chǎn)領域內(nèi)的術語表達,為后續(xù)的核心類及屬性定義提供規(guī)范化的設計依據(jù)。

在此主要參考《第三次全國文物普查不可移動文物登記表》《中國古代橋梁技術檔案規(guī)范》的著錄內(nèi)容,除了采用橋梁名稱、類別、保護代碼、位置、年代、計量信息等基本指標作為概念術語外,還增加了橋梁文化遺產(chǎn)的工藝技法、民俗活動等內(nèi)容。橋梁文化遺產(chǎn)領域重要概念和術語如表1 所示,以此對橋梁文化遺產(chǎn)實體的基本信息和文化內(nèi)涵進行語義描述和知識關聯(lián),彰顯橋梁文化遺產(chǎn)的歷史人文價值。

表1 橋梁文化遺產(chǎn)領域重要概念和術語(部分)

4.2 定義核心類及層級

在定義橋梁文化遺產(chǎn)檔案領域本體的核心類時,不既要關注檔案文獻的內(nèi)容結構信息,又對反映檔案文獻的背景信息進行概括闡述。對橋梁文化遺產(chǎn)檔案的內(nèi)容和形式特征信息進行概念提煉,得到橋梁文化遺產(chǎn)實體、橋梁人物、橋技藝、時間、地點、事件、橋文化7 個核心類和12 個二級類目,如圖2 所示。

圖2 橋梁文化遺產(chǎn)檔案本體核心類

(1)橋梁文化遺產(chǎn)實體類(Bridge Entity)

橋梁文化遺產(chǎn)實體是其檔案文獻的核心內(nèi)容,因而筆者復用了CIDOC-CRM 中E1:Entity 的部分屬性,將“橋梁遺產(chǎn)實體”抽取出來成為一級核心概念。根據(jù)橋梁文化遺產(chǎn)建造年代的遠近,將其分為歷史古橋和近現(xiàn)代重要橋梁,并作為二級類目。

(2)橋梁人物類(Person)

橋梁文化遺產(chǎn)的建造和保護都與人的社會活動息息相關,人物是檔案記錄中必不可少的屬性之一。在此復用FOAF 本體中的foaf:Person 類作為核心類,考慮到部分橋梁文化遺產(chǎn)是因著名人物游訪而得名,因而在一級類目下設置橋梁建造者和橋梁相關者作為子類,其中橋梁建造者包括橋梁文化遺產(chǎn)的設計者、修葺者、捐資者等主體,橋梁相關者則可以包括游覽過該橋梁的著名人物、橋文學作品作者等。

(3)橋技藝類(Techniques)

橋技藝即橋梁建造所體現(xiàn)的傳統(tǒng)工藝或現(xiàn)代先進技術,是橋梁文化遺產(chǎn)非物質文化的重要內(nèi)容。當前,石橋營造技藝、木拱橋傳統(tǒng)營造技藝已入選為國家級非物質文化遺產(chǎn),成為中華傳統(tǒng)優(yōu)秀文化熠熠生輝的重要組成部分。在此復用CIDOC-CRM 本體中Techniques 類,將橋技藝作為橋梁文化遺產(chǎn)檔案本體的核心概念,不僅包括傳統(tǒng)工藝技法,還包括在近現(xiàn)代橋梁建筑史上有突破性意義的現(xiàn)今建造技術。

(4)時間類(Timporal Entity)

時間要素是評估橋梁文化遺產(chǎn)價值的重要標準之一。參考CIDOC-CRM 本體中E2:Temporal Entity 類,根據(jù)時間的表達形式,將時間分為抽象時間類和具體時間類,其中抽象時間主要泛指某一年代或一段時期,如在檔案記錄中“北洋橋初建于唐代,明萬歷三十年重建”,這里的“唐代”“明萬歷三十年”就屬于抽象的時間表達。具體時間則是指現(xiàn)今所通用的年月日描述時間形式。

(5)地點類(Place)

我國橋梁文化遺產(chǎn)分布地域較廣,橋梁文化遺產(chǎn)的材質構造、營造技藝與所屬位置的地理環(huán)境、地方習俗有著密不可分的聯(lián)系。在此復用geo 本體中的place 地點類,指對橋梁文化遺產(chǎn)、橋梁人物等所處地理位置信息的綜合描述,包括地理位置名稱、經(jīng)緯度坐標、GPS 坐標測點、以及與某一建筑、實物等參照物的相對位置及距離等。同一地域可能分布著多個橋梁文化遺產(chǎn),通過這一屬性可以將不同的橋梁文化遺產(chǎn)資源關聯(lián)起來,彰顯該地域的歷史文化底蘊。

(6)事件類(Event)

事件類主要復用了EVENT 本體,根據(jù)橋梁文化遺產(chǎn)檔案記錄內(nèi)容,事件主要圍繞橋梁文化遺產(chǎn)的設計修建和申遺保護而展開,因此將事件類劃分為建造活動、保護活動和其他活動三類。每一個事件都涉及到具體的人物、事件、地點等因素,因此將事件主體、發(fā)生時間、位置、產(chǎn)物作為事件類的數(shù)據(jù)屬性。

(7)橋文化類(Culture)

橋文化類是橋梁文化遺產(chǎn)中非物質屬性內(nèi)涵的集中呈現(xiàn),其內(nèi)容主要包括橋美學、橋文學、橋民俗。橋美學即通過巧妙的橋梁結構設計、色彩搭配、景觀裝飾等使橋梁呈現(xiàn)出的藝術美感,“造型美”是橋梁文化遺產(chǎn)的一大特色;橋文學即記錄橋梁文化遺產(chǎn)的文學故事、詩詞作品等,橋梁文化遺產(chǎn)歷來與文學藝術有深厚淵源,在文學作品中出現(xiàn)了較高的頻率;橋民俗則是指代代流傳與橋梁文化遺產(chǎn)相關的傳統(tǒng)習俗,如走橋、架橋、搭橋、接橋等,這些傳統(tǒng)的橋民俗是當?shù)厝嗣竦木窦耐?,通常代表著美好向往與寓意。

4.3 定義類的關系及屬性

對類的關系和屬性進行定義即確定橋梁文化遺產(chǎn)領域本體核心類的對象屬性和關系屬性,其中類與類之間的語義關系主要是通過對象屬性加以描述[14],以此建立起兩個實體概念間的關聯(lián);數(shù)據(jù)屬性則是對類的外在屬性和內(nèi)在屬性進行描述的具體信息,主要是補充和完善類的內(nèi)涵。

表2 中創(chuàng)建了不同實體之間的對象屬性,并對屬性定義進行了說明。如橋梁遺產(chǎn)實體類與橋梁人物類、橋技藝、地點類、時間類等建造者(construct)、設計者(design)、橋技藝(hasTechniques)、建造地點(isLocatedIn)、建造時間(hasConstructionTime)等關系,橋梁人物類與橋技藝類、事件類、橋文學類等存在傳承者(inheritor)、參與了(participatein)、創(chuàng)作者(author)等關系。通過定義類之間的關系可以建立其相關概念的關聯(lián),以此形成橋梁文化遺產(chǎn)檔案知識的可視化網(wǎng)絡。對象屬性除了能在不同類之間建立關聯(lián),還能表示類自身的關系,例如處于社會關系中的人物彼此之間相識相知,存在師承關系、父子關系、朋友關系等,屬性“knows”定義了人物與人物之間的關系,表示人物之間互相熟識,且關系具有傳遞性,據(jù)此能推理出人物之間的社交網(wǎng)絡。

表2 橋梁文化遺產(chǎn)檔案領域本體對象屬性及說明

對類的數(shù)據(jù)屬性進行定義,可以豐富對實例的語義描述,有助于實現(xiàn)橋梁文化遺產(chǎn)檔案領域本體的語義檢索。在此研究中,主要是對橋梁文化遺產(chǎn)實體、檔案文獻、人物、組織機構、文化類添加數(shù)據(jù)屬性。為避免重復,將名稱、別名、描述等通用屬性設為主體owl:Thing 的數(shù)據(jù)屬性,便于其他類使用[15]。根據(jù)表1 中列舉的橋梁文化遺產(chǎn)領域重要術語,將代碼、類別、級別、材質、保存狀況、橋梁長度、橋面寬度、橋梁跨徑設等設為“橋梁遺產(chǎn)實體”的數(shù)據(jù)屬性,其中代碼是指依據(jù)《文物保護單位記錄檔案檔號編制規(guī)則》所賦予的橋梁文化遺產(chǎn)保護唯一識別標識。橋梁人物類包括性別、籍貫、角色、工作單位、作品等基本信息;地點類包括省、市、具體位置、相對位置等數(shù)據(jù)屬性;文化類則包括象征意義、歷史故事等屬性。

此外,為減少屬性添加的隨意性,需要建立對象屬性和關系屬性的約束條件,即利用定義域和值域限制主體和客體的關系。在對象屬性中,定義域和值域的對象都是相關類,而數(shù)據(jù)屬性中的值域是指具體的數(shù)據(jù)信息,包括數(shù)字、文本、字符串等。如表3 所示,除了數(shù)據(jù)屬性“Code”“Age”的值域為xsd:int,“dateofBirth”“ConstructionDate”等時間類屬性的值域為xsd:dateTime 外,其他數(shù)據(jù)屬性的取值均為字符型xsd:string。

表3 橋梁文化遺產(chǎn)檔案領域本體數(shù)據(jù)屬性及說明

4.4 基于Protégé 的實例創(chuàng)建

Protégé 是橋梁文化遺產(chǎn)檔案本體模型可視化的重要工具,不僅支持生成本體模型,還支持在軟件中添加本體的對象屬性、關系屬性及相關實例,根據(jù)知識元素之間的關聯(lián)設置核心概念的屬性和關系,就可以自動生成橋梁文化遺產(chǎn)檔案知識圖譜的本體模型,如圖3 所示。以武漢長江大橋檔案作為實例,在Protégé 本體工具依次添加橋梁名稱、橋梁建造者、修建時間等實例及屬性。如實例“武漢長江大橋”,設置Type(類)為“近現(xiàn)代重要橋梁”,添加對象屬性“isLocatedIn(位于)”“hasTechniques(橋技藝)”“hasConstructionTime(建造時間)”和多個數(shù)據(jù)屬性,完成后如圖4 所示。

圖3 橋梁文化遺產(chǎn)檔案本體模型

圖4 橋梁文化遺產(chǎn)檔案本體實例添加

5 橋梁文化遺產(chǎn)檔案知識圖譜構建

橋梁文化遺產(chǎn)檔案知識圖譜構建包括數(shù)據(jù)獲取、知識建模、知識抽取、知識存儲等基本環(huán)節(jié),采取自頂向下的構建方式,構建框架如圖5 所示。首先在橋梁文化遺產(chǎn)檔案模型的基礎上設置映射規(guī)則,將本體模型中的類、屬性和關系直接映射為知識圖譜中的實體和關系;再者基于人工理解抽取知識元素,并利用三元組形成統(tǒng)一的知識表達形式。最后將經(jīng)過處理的結構化數(shù)據(jù)存儲到Neo4j 圖數(shù)據(jù)庫中,實現(xiàn)橋梁文化遺產(chǎn)檔案知識圖譜的知識關聯(lián)展示。從而從語義描述與知識表示兩個層面實現(xiàn)對橋梁文化遺產(chǎn)檔案資源的知識組織。

圖5 橋梁文化遺產(chǎn)檔案知識圖譜構建框架

5.1 橋梁文化遺產(chǎn)檔案本體映射

橋梁文化遺產(chǎn)檔案本體模型的構建實際上完成了知識圖譜的概念層建模。設置本體映射規(guī)則能夠統(tǒng)一知識結構表現(xiàn)形式,直接依托本體設置公理及約束條件擴充知識圖譜的模式層,實現(xiàn)本體模型中的類、屬性、關系、實例向知識圖譜中的節(jié)點和關系的轉換。根據(jù)本體模型和知識圖譜中相關元素的對應關系,面向橋梁文化遺產(chǎn)檔案資源,設置映射規(guī)則[16]:①將本體模型中的類和實例映射為知識圖譜中的節(jié)點。如本體模型中的橋梁文化遺產(chǎn)實體類、人物類、地點類等,其具體實例“武漢長江大橋”“茅以升”“武漢”就可以映射成為圖譜中的一個獨立節(jié)點;②將本體模型中的對象屬性映射為知識圖譜中的邊。如本體模型中人物與橋梁之間的“construct(建造)”關系,橋梁與地點之間的“isLocatedIn(位于)”關系,則可以映射成圖譜中具有確定方向性的邊;③將本體模型中的數(shù)據(jù)屬性映射為知識圖譜中節(jié)點的屬性。如橋梁文化遺產(chǎn)實體包括名稱、類型、建造年代、橋梁長度、跨徑等多個屬性。與本體不同的是,知識圖譜繪制時除了可設置節(jié)點的屬性外,還可以為節(jié)點的關系添加屬性[17]。如節(jié)點“茅以升”與“錢塘江大橋”之間存在“construct”關系,建造時間為“1934”,通過“since:1934”語句就可以為“construct”關系建立具體的屬性。

5.2 橋梁文化遺產(chǎn)檔案知識抽取

知識抽取是多源異構數(shù)據(jù)中抽取出實體、關系、屬性等知識要素,是構建知識圖譜數(shù)據(jù)層的關鍵環(huán)節(jié)。橋梁文化遺產(chǎn)檔案有的來源于檔案館,有的來源于相關網(wǎng)站,多種來源、格式、模態(tài)使得數(shù)據(jù)結構與知識結構形式不一致,需要采取相應的知識抽取方法將數(shù)據(jù)處理為易于識別和存儲的結構化數(shù)據(jù)。本文所采集的橋梁文化遺產(chǎn)檔案以數(shù)字化圖像為主,主要為非結構化數(shù)據(jù)。由于研究樣本量較少,因而以人工為主、機器識別為輔的方式進行知識抽取。首先將經(jīng)過數(shù)字化處理的檔案圖像轉化為文本數(shù)據(jù)形式,然后根據(jù)橋梁文化遺產(chǎn)檔案本體模型定義的語義描述框架從中抽取出實體、屬性和關系,再利用RDF 數(shù)據(jù)模型的語義網(wǎng)結構對抽取出來的知識單元進行統(tǒng)一表示,以便于為后期知識存儲提供規(guī)范的數(shù)據(jù)結構。以“白楊橋”為例,圖6 為《武漢市志:文物志》中關于白楊橋的記載[18],可以從中抽取出“白楊橋”“北洋橋”“洪山區(qū)”“唐代”“李凌”等實體,“位于”“建于”“修建”等關系,以及橋長、橋寬、跨徑、材質等屬性和屬性值,具體知識抽取結果如圖7 所示。將從“白楊橋”檔案抽取出來的知識單元采用〈實體,屬性,屬性詞〉或者〈主語,謂語,賓語〉三元組進行表示。如圖8 所示,其中,橋梁實體與地方、時間、人物實體之間的關聯(lián)可以表示為〈白楊橋,位于,湖北省武漢市洪山區(qū)〉、〈白楊橋,建于,唐代〉、〈李凌,修建,白楊橋〉等,橋梁實體與其屬性之間的關系可以表示為〈白楊橋,類型,石拱橋〉、〈白楊橋,尺寸,長50 米〉等。

圖6 “白楊橋”相關檔案記載

圖7 “白楊橋”檔案知識抽取示例

圖8 “白楊橋”檔案知識表示示例

在知識抽取過程中不可避免地存在橋梁名稱變化、一詞多義等問題,容易將表示同一實體的不同詞匯理解為兩個實體,導致知識之間存在歧義和不匹配的情況。橋梁文化遺產(chǎn)在發(fā)展過程中由于城市更迭存在古橋名和現(xiàn)橋名,如“白楊橋”也可稱為“北洋橋”,雖然名稱不一樣,但指代的都是同一實體。在具體操作中要對這類相似概念進行同義詞處理,即將同一實體的不同表述鏈接到正確的實體上[19],從到達到消除歧義的目的。

5.3 橋梁文化遺產(chǎn)檔案知識存儲

知識圖譜通常以圖結構來對知識進行建模和表示,本身具有良好的動態(tài)性和可擴展性,支持面向RDF 數(shù)據(jù)庫的存儲、基于傳統(tǒng)關系數(shù)據(jù)庫的存儲和圖數(shù)據(jù)庫存儲三種方式[20]。本研究采用Neo4j 圖數(shù)據(jù)庫存儲橋梁文化遺產(chǎn)檔案知識圖譜,以屬性圖的方式實現(xiàn)RDF 數(shù)據(jù)的存儲和查詢。

經(jīng)過抽取的實體和關系以三元組的形式存在于知識庫中,但現(xiàn)有的Neo4j 圖數(shù)據(jù)庫并不能直接支持RDF 數(shù)據(jù)存儲,因而需要對數(shù)據(jù)進行處理轉化成圖數(shù)據(jù)庫支持的數(shù)據(jù)格式。在知識圖譜存儲過程中,相關的節(jié)點和關系分別記錄在不同的文件中,形成具有固定長度的鏈表,即節(jié)點表和關系表。其中節(jié)點表節(jié)點表包含節(jié)點ID、節(jié)點名稱、節(jié)點屬性集等信息,關系表包含起始節(jié)點、結束節(jié)點、關系類型、關系屬性等信息[21]。按照上述內(nèi)容,將抽取出來的的實體實例和關系等數(shù)據(jù)分別存儲到節(jié)點表和關系表中,并轉化為CSV 文件,然后利用Cypher 語句“LOAD CSV”命令將數(shù)據(jù)批量導入到Neo4j 數(shù)據(jù)庫中[22],則完成了抽取實體和關系的知識存儲。圖9 和圖10 分別展示了實體和關系存儲的部分命令代碼。

圖9 批量導入節(jié)點命令

圖10 批量導入關系命令

5.4 橋梁文化遺產(chǎn)檔案知識圖譜關聯(lián)展示

構建好的知識圖譜將橋梁文化遺產(chǎn)檔案的知識內(nèi)容以關聯(lián)網(wǎng)絡的形式呈現(xiàn)出來,通過操作節(jié)點可以快速檢索橋梁文化遺產(chǎn)信息、發(fā)現(xiàn)知識關聯(lián),獲得更為直觀立體的知識服務體驗。如圖11 所示,對于檔案管理者來說,通過構建知識圖譜對橋梁文化遺產(chǎn)檔案知識進行知識要素提取,能夠實現(xiàn)數(shù)據(jù)化及語義化組織,促進檔案資源的開發(fā)與重用;對于文化興趣者而言,通過該知識圖譜可以全面了解湖北省橋梁文化遺產(chǎn)的基本信息和相關知識,降低了知識查詢的時間復雜度。

圖11 湖北省橋梁文化遺產(chǎn)檔案知識圖譜

5.4.1 橋梁文化遺產(chǎn)——時間維度的關聯(lián)展示

橋梁文化遺產(chǎn)是歷史文化和人文技藝的物化形式,時間維度構成了橋梁文化遺產(chǎn)的基本價值?;跁r間維度的可視化呈現(xiàn),既是特定歷史時期橋梁建造技藝的直觀化展示,也是挖掘我國橋梁建筑發(fā)展演變史最客觀的角度。如圖12 所示,在湖北省已入選文物保護單位的橋梁文化遺產(chǎn)中,唐代修建的北洋橋最為古老。不同年代的橋梁文化遺產(chǎn)數(shù)量之間差異較大,目前建檔立冊受政府保護的橋梁文化遺產(chǎn)大多為清代修建,明代其次。這一方面表明了隨著時代演變,橋梁文化遺產(chǎn)不可避免地受到各種因素的影響而逐漸消失;另一方面也反映了湖北省應采取有效措施加大對古橋建筑、瀕危橋梁的普查,建立起完善的檔案記錄。

圖12 橋梁文化遺產(chǎn)——時間維度的關聯(lián)展示

5.4.2 橋梁文化遺產(chǎn)——橋梁人物的關聯(lián)展示

橋梁文化遺產(chǎn)的建造和保護都離不開人的作用,其背后蘊含著數(shù)代人的智慧和奉獻。由于一些歷史因素導致橋梁文化遺產(chǎn)檔案記錄缺失,部分橋梁文化遺產(chǎn)的建造者及相關人物已經(jīng)無證可考,因而所呈現(xiàn)的知識圖譜中并不是每一個橋梁文化遺產(chǎn)都會與橋梁人物相關聯(lián)。從圖13 可知,一座橋梁文化遺產(chǎn)所涉及的橋梁人物可能有多位,一個橋梁人物參與建造的橋梁文化遺產(chǎn)也不止一座,尤其是在近現(xiàn)代重要橋梁中這一特征更為明顯。比如參與“武漢長江大橋”設計修建的人物有茅以升、李文驥、梅旸春等多個橋梁專家,其中茅以升不僅是武漢長江大橋的技術顧問,還主持修建了錢塘江大橋,通過這一橋梁人物就可以將“武漢長江大橋”和“錢塘江大橋”這兩個知識單元關聯(lián)成立知識網(wǎng)。同時通過點擊“茅以升”節(jié)點,還可以了解到這一橋梁專家的出生日期、戶籍地、代表作品等詳細信息。

圖13 橋梁文化遺產(chǎn)——橋梁人物的關聯(lián)展示

5.4.3 橋梁文化遺產(chǎn)——地理位置——技藝的關聯(lián)展示

“一方水土造就一方文化”,湖泊遍布、山河縱橫的自然環(huán)境孕育了千姿百態(tài)的橋梁文化遺產(chǎn),橋梁成為了湖北地區(qū)最基本的交通要道,將被山水分割的地區(qū)連成一體。借助地名將不同類型的橋梁文化遺產(chǎn)關聯(lián)起來,后期還可以融入地理信息系統(tǒng)技術展現(xiàn)橋梁文化遺產(chǎn)的地域分布特征。將檔案中分散記錄的橋梁文化遺產(chǎn)關聯(lián)成一張知識網(wǎng)絡,用戶可以根據(jù)興趣查看不同地區(qū)橋梁文化遺產(chǎn)的基本信息,極大提高了橋梁文化遺產(chǎn)檔案利用的效率。以咸寧地區(qū)為例,咸寧素有“千橋之鄉(xiāng)”的美稱,既有拱橋,也有梁橋、廊橋,這些橋梁文化遺產(chǎn)與山水融為一體,給咸寧地區(qū)增添了無限神韻。通過圖5-12 可以明確看出,咸寧地區(qū)的橋梁技藝以石橋營造技藝和石拱廊橋營造技藝為主,地以橋名或橋以地名是當?shù)氐囊淮筇厣?。點擊“汀泗橋”,可了解到其為三孔拱式廊橋,是國家重點文物保護單位北伐汀泗橋戰(zhàn)役遺址的重要組成部分,凝聚著厚重的紅色基因。

圖5-12 橋梁文化遺產(chǎn)——地理位置——技藝的關聯(lián)展示

5.5 橋梁文化遺產(chǎn)檔案知識圖譜的應用

相較于傳統(tǒng)的基于橋梁文化遺產(chǎn)檔案開發(fā)的編研成果,知識圖譜可以生動直觀地展示出橋梁文化遺產(chǎn)的基本信息和其背后隱含的文化背景,在檔案領域有著多元應用場景。

5.5.1 語義檢索

傳統(tǒng)的語義檢索主要是通過直接匹配關鍵詞進行查找,這種方式要求檢索詞具有高度精準性,如果輸入檢索詞有錯別字或比較模糊,則無法從語義層面準確理解用戶需求。而基于橋梁文化遺產(chǎn)檔案知識圖譜實現(xiàn)的語義檢索功能,則能夠基于語義關系對相關的橋梁文化遺產(chǎn)知識進行標注和整合,幫助用戶檢索到相關的檔案知識信息。在查找時,能從多維角度對與檢索詞相關聯(lián)的實體進行檢索,可以全面了解到橋梁文化遺產(chǎn)檔案中記錄的建造年代、橋梁構造、材質、地理位置、橋技藝等信息內(nèi)容及背后的歷史故事。同時,該語義化檢索字段并不局限于關鍵詞的字面意思,可以通過語義消歧和實體鏈接準確理解用戶語義,匹配到檔案用戶檢索的橋梁文化遺產(chǎn)檔案知識信息,極大提高了橋梁文化遺產(chǎn)檔案知識檢索的準確性,增強了檔案信息服務的交互性。

5.5.2 智能問答

目前沒有專門針對橋梁文化遺產(chǎn)領域的知識問答系統(tǒng)。因此,可以建立起基于橋梁文化遺產(chǎn)檔案知識圖譜的智能問答系統(tǒng),彌補當前橋梁文化遺產(chǎn)檔案知識庫建設的空白,為檔案館或文物管理部門信息服務建設提供新的思路。橋梁文化遺產(chǎn)檔案知識圖譜的構建,為智能問答系統(tǒng)的搭建提供了豐富的數(shù)據(jù)源。該橋梁文化遺產(chǎn)智能問答平臺可以與橋梁博物館、文物紀念館等線上展示平臺相結合。在展示界面,用戶可根據(jù)興趣選擇某一座“橋梁文化遺產(chǎn)”了解基本信息,如果想深入了解該橋梁的文化故事,則可以在智能問答平臺中輸入相關問題獲取橋梁文化遺產(chǎn)檔案的知識普及和利用。

5.5.3 個性化推薦

基于知識圖譜實現(xiàn)橋梁文化遺產(chǎn)檔案知識的個性化檢索,與檔案部門從被動變主動服務的轉變理念不謀而合。橋梁文化遺產(chǎn)檔案資源龐大、內(nèi)容豐富,但用戶對檔案內(nèi)容較為陌生,如果僅是靠點擊式瀏覽檔案內(nèi)容,不僅程序繁瑣,還費時費力。如果可以在檔案館網(wǎng)站中運用個性化推薦技術,通過分析檔案用戶的行為偏好、屬性特征了解用戶的需求,根據(jù)知識間的關聯(lián)關系主動向用戶推送感興趣的橋梁文化遺產(chǎn)知識內(nèi)容,則可以在很大程度上減輕檔案用戶知識檢索的工作量,滿足用戶的個性化知識需求,實現(xiàn)精準化檔案服務。

6 總結與展望

當前橋梁文化遺產(chǎn)檔案資源開發(fā)利用側重于檔案編研與展覽,資源開發(fā)與利用性不足使得公眾對于此類檔案內(nèi)容比較陌生,這也導致橋梁文化遺產(chǎn)檔案所承載的文化內(nèi)涵和知識價值難以得到有效發(fā)揮?;诖?,本研究嘗試從微觀層面對橋梁文化遺產(chǎn)檔案資源進行語義組織與知識關聯(lián),利用本體、知識圖譜等技術對檔案資源進行重構并建立該領域的知識圖譜。并結合檔案工作實踐探討橋梁文化遺產(chǎn)檔案知識圖譜在語義檢索、智能問答、個性化推薦中的多場景應用。有效彌補了橋梁文化遺產(chǎn)檔案資源在語義組織、數(shù)據(jù)集成、知識關聯(lián)等方面的不足。

雖然本研究實現(xiàn)了橋梁文化遺產(chǎn)檔案本體模型和知識圖譜的構建,但受時間、能力、篇幅等部分因素的影響,本研究仍然存在橋梁文化遺產(chǎn)檔案數(shù)據(jù)量較小、本體構建和檔案知識抽取以人工操作為主等不足。今后將進一步豐富檔案數(shù)據(jù)來源、引入機器學習等技術對非結構化檔案文本信息進行處理。

猜你喜歡
本體圖譜文化遺產(chǎn)
Abstracts and Key Words
與文化遺產(chǎn)相遇
繪一張成長圖譜
對姜夔自度曲音樂本體的現(xiàn)代解讀
酌古參今——頤和園文化遺產(chǎn)之美
補腎強身片UPLC指紋圖譜
《文化遺產(chǎn)》2016總目錄
主動對接你思維的知識圖譜
《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
文化遺產(chǎn)保護