摘要隨著網(wǎng)絡(luò)化、數(shù)字化的發(fā)展,博物館在知識(shí)分享以及知識(shí)傳播方面的貢獻(xiàn)越發(fā)突出。文物知識(shí)圖譜就是為了適應(yīng)這種新的網(wǎng)絡(luò)環(huán)境而產(chǎn)生的一種語義知識(shí)組織和服務(wù)的方法。文章試圖回歸知識(shí)圖譜構(gòu)建的本質(zhì),通過介紹目前知識(shí)圖譜構(gòu)建領(lǐng)域的一些新思路與新形式,結(jié)合文物數(shù)據(jù)庫的特點(diǎn),對(duì)博物館如何利用知識(shí)圖譜構(gòu)建文物藏品知識(shí)庫進(jìn)行深入思考,以期挖掘文物知識(shí)圖譜更大利用價(jià)值。
關(guān)鍵詞智慧博物館知識(shí)圖譜數(shù)據(jù)挖掘
0 引言
隨著博物館信息化、智慧化的不斷提高,博物館在知識(shí)領(lǐng)域發(fā)揮的作用正在不斷深化,尤其在知識(shí)分享以及知識(shí)傳播方面的貢獻(xiàn)正變得日益重要,廣大觀眾及用戶對(duì)于全球性知識(shí)獲取的需求也在不斷增長。但由于博物館本身是一個(gè)發(fā)展歷史較長的實(shí)體保存單位,對(duì)于知識(shí)和信息的獲取和利用方式還未能完全滿足數(shù)字化網(wǎng)絡(luò)化時(shí)代的發(fā)展,許多歷史知識(shí)與文物信息也都未能得到很好的挖掘。因此,就需要進(jìn)行文物知識(shí)圖譜的構(gòu)建,以高效準(zhǔn)確、簡明易懂的方式和實(shí)現(xiàn)技術(shù)將博物館內(nèi)的眾多文物歷史知識(shí)進(jìn)行整合和梳理,找出內(nèi)在邏輯,從而滿足日益增長的廣大觀眾與用戶的需求,講好文物背后的故事,更好地完成博物館在文化歷史宣傳方面的積極作用。
1 知識(shí)圖譜的概念及相關(guān)研究
作為一種智能高效的知識(shí)組織方式,自2012年 Google 公司提出“知識(shí)圖譜(Knowledge Graph)”至今,知識(shí)圖譜技術(shù)得到了飛速發(fā)展,但實(shí)際上目前業(yè)界并沒有一個(gè)公認(rèn)的定義。
維基百科上知識(shí)圖譜的詞條實(shí)際上是對(duì) Google 公司搜索引擎使用的知識(shí)庫功能的描述,即知識(shí)圖譜是Google 公司使用的一個(gè)知識(shí)庫及服務(wù),它利用從多種來源收集到的信息提升搜索引擎返回的結(jié)果的質(zhì)量[1]。
在《知識(shí)圖譜:方法、實(shí)踐與應(yīng)用》中,將知識(shí)圖譜表述為“是一種用圖模型來描述知識(shí)和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法?!敝R(shí)圖譜由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)可以是實(shí)體,也可以是抽象的概念;邊可以是實(shí)體的屬性,或者是實(shí)體之間的關(guān)系。知識(shí)圖譜的早期理念來自 Semantic Web(語義網(wǎng))[2],其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實(shí)體鏈接的語義網(wǎng)。
國內(nèi)外圍繞知識(shí)圖譜也進(jìn)行了大量研究,比如 I. Rafols 等人提出“知識(shí)圖譜是科學(xué)領(lǐng)域或科學(xué)團(tuán)體的符號(hào)表征,圖中的元素與研究主題對(duì)應(yīng)。而元素按照相似性進(jìn)行布局,相關(guān)元素距離較近,不相關(guān)元素距離較遠(yuǎn)(圖1,2)。圖譜上的元素可以是作者、出版物、研究機(jī)構(gòu)、科學(xué)主題或儀器工具等,其目的在于使用戶能夠分析元素之間的關(guān)系。大部分知識(shí)圖譜使用的是文獻(xiàn)數(shù)據(jù)庫中的數(shù)據(jù),不過也有使用其他數(shù)據(jù)源的?!盵3]近年來我國一些學(xué)者也對(duì)知識(shí)圖譜的概念做出了比較完整和全面的定義。比如肖仰華等將知識(shí)圖譜概念分為狹義和廣義。其中狹義的知識(shí)圖譜特指一類知識(shí)表示,本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)。而廣義的知識(shí)圖譜是大數(shù)據(jù)時(shí)代知識(shí)工程一系列技術(shù)的總稱,在一定程度上指代大數(shù)據(jù)知識(shí)工程這一新興學(xué)科[4]。而劉則淵等人則將知識(shí)圖譜定義為“顯示科學(xué)知識(shí)的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形,可視化地描述人類隨時(shí)間擁有的知識(shí)資源及其載體,繪制、挖掘、分析和顯示科學(xué)技術(shù)知識(shí)以及它們之間的相互聯(lián)系,在組織內(nèi)創(chuàng)造知識(shí)共享的環(huán)境以促進(jìn)科學(xué)技術(shù)研究的合作和深入??茖W(xué)知識(shí)圖譜具有‘圖’和‘譜’的雙重性質(zhì)與特征:既是可視化的知識(shí)圖形,又是序列化的知識(shí)譜系,顯示了知識(shí)元或知識(shí)群之間網(wǎng)絡(luò)、結(jié)構(gòu)、互動(dòng)、交叉、演化或衍生等諸多復(fù)雜的關(guān)系?!盵4]
可以看出,知識(shí)圖譜匯集了眾多學(xué)科的理論和框架,本質(zhì)上是一種語義網(wǎng)絡(luò),通過定量與定性相結(jié)合的研究方法,動(dòng)態(tài)性地呈現(xiàn)科學(xué)知識(shí)的基本情況,同時(shí)揭示其背后隱含的規(guī)律、關(guān)系和趨勢(shì),從而產(chǎn)生新的知識(shí)。
近年來,隨著互聯(lián)網(wǎng)的日益普及,越來越多的知識(shí)圖譜應(yīng)運(yùn)而生。根據(jù) LOD(Linked Open Data 開放互聯(lián)數(shù)據(jù)聯(lián)盟)公布的數(shù)據(jù),截至2019年3月,已有1239個(gè)開放互聯(lián)的知識(shí)圖譜加入,供全球用戶使用[5]。表1為一些常見的知識(shí)圖譜及其特點(diǎn)和規(guī)模。
其中,Cyc 是持續(xù)時(shí)間最久、影響范圍最廣、爭議也較多的知識(shí)庫項(xiàng)目。Cyc 最初的目標(biāo)是要建立人類最大的常識(shí)知識(shí)庫。它的主要特點(diǎn)是基于形式化的知識(shí)表示方式刻畫知識(shí),這樣的優(yōu)勢(shì)是可以支持復(fù)雜的推理,但過于形式化也導(dǎo)致知識(shí)庫的擴(kuò)展性和靈活性不夠。相比之下,ConceptNet采用了非形式化、更加接近自然語言的表述。而與 Google 知識(shí)圖譜相比,則側(cè)重于詞與詞之間的關(guān)系。WikiData的目標(biāo)是構(gòu)建一個(gè)免費(fèi)開放、多語言、任何人或機(jī)器都可以編輯修改的大規(guī)模鏈接知識(shí)庫,支持以三元組為基礎(chǔ)的知識(shí)條目的自由編輯。截至目前,WikiData已經(jīng)包含超過5000萬個(gè)知識(shí)條目。
2 利用知識(shí)圖譜構(gòu)建文物藏品知識(shí)庫
在文博領(lǐng)域,近些年國內(nèi)外有許多科研機(jī)構(gòu)和個(gè)人嘗試?yán)弥R(shí)圖譜的方式構(gòu)建各類文物主題庫,知識(shí)圖譜的應(yīng)用逐漸受到研究人員和相關(guān)工作人員的關(guān)注,在各個(gè)領(lǐng)域均有涉及,比如智慧導(dǎo)覽、智能問答、智慧展陳與可視化等,成為博物館智慧化的重要研究和應(yīng)用領(lǐng)域之一。但由于文物資料來源廣泛,數(shù)量巨大,標(biāo)準(zhǔn)化程度極低,因此資料的知識(shí)點(diǎn)提取難度極大。同時(shí),文物研究人員通常專攻某一類型或某一段歷史,文物之間的內(nèi)在聯(lián)系很難獲得,因此,文物知識(shí)圖譜的構(gòu)建難度較大,且在構(gòu)建時(shí)自動(dòng)化程度較低,多為人工提取和處理知識(shí)點(diǎn),遠(yuǎn)遠(yuǎn)無法達(dá)到計(jì)算機(jī)自動(dòng)處理和識(shí)別,這樣就大大降低了文物知識(shí)圖譜的檢索效率和應(yīng)用前景。而身處文博知識(shí)體系下,通過系統(tǒng)性梳理知識(shí)圖譜的構(gòu)建邏輯和構(gòu)建方法,希望可以探索出一條針對(duì)文物藏品的知識(shí)圖譜的構(gòu)建方法。
一般來說,知識(shí)圖譜的構(gòu)建主要包含三個(gè)方面,即:知識(shí)抽取、知識(shí)加工和知識(shí)融合,而一套完整的知識(shí)圖譜構(gòu)建方法,還需要考慮圖譜的存儲(chǔ)和可視化等問題(圖3)。由于文物的情況比較復(fù)雜,對(duì)于文物名稱、描述、年代等方面的元數(shù)據(jù)規(guī)范程度較低,因此,在實(shí)際構(gòu)建中,還需要考慮對(duì)于來源數(shù)據(jù)庫的預(yù)處理工作,從而最大程度上實(shí)現(xiàn)知識(shí)圖譜的自動(dòng)化與準(zhǔn)確性。
2.1 數(shù)據(jù)庫預(yù)處理環(huán)節(jié)
數(shù)據(jù)庫的預(yù)處理是指建立文物知識(shí)圖譜來源數(shù)據(jù)庫的元數(shù)據(jù)體系規(guī)范,以解決數(shù)據(jù)庫互操作的問題,并為之后的文物知識(shí)圖譜的構(gòu)建打下良好基礎(chǔ)。在許多知識(shí)圖譜構(gòu)建工具中,已包含預(yù)處理工序,但由于文博領(lǐng)域各類文物藏品的復(fù)雜性與多樣性,數(shù)據(jù)庫規(guī)范程度較低且元數(shù)據(jù)體系不統(tǒng)一,軟件的自動(dòng)預(yù)處理模塊效果較差,因此需要人工干預(yù),選擇一種邏輯清晰、可擴(kuò)展性強(qiáng)、且能夠從語義層面解決數(shù)據(jù)之間異構(gòu)性的元數(shù)據(jù)標(biāo)準(zhǔn),將來源數(shù)據(jù)庫與該元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行映射,以完成數(shù)據(jù)庫的預(yù)處理環(huán)節(jié)。
CIDOC 概念參考模型(CIDOC Conceptual Ref- erence Model,簡稱 CIDOC CRM)是由國際博物館理事會(huì)(International Council ofMuseums,簡稱 I- COM)下屬的國際文獻(xiàn)理事會(huì)(International Com-mittee for Documentation,簡稱 CIDOC)開發(fā)的一套應(yīng)用于文化遺產(chǎn)的信息集成概念參考模型。它通過提供定義和形式化結(jié)構(gòu)來描述文化遺產(chǎn)中所使用的隱形概念和顯性概念以及它們之間的關(guān)系,從而幫助相關(guān)領(lǐng)域的研究者、管理者和公眾在多源、異構(gòu)、數(shù)量龐雜的數(shù)據(jù)中對(duì)特定信息進(jìn)行定義和表達(dá),并且通過提供通用和可擴(kuò)展的語義框架,促進(jìn)公眾對(duì)文化遺產(chǎn)信息的共建共享[8]。
目前,最新的版本為 Version 5.0.4,于2011年12月發(fā)布[9]。本版本定義了90個(gè)類,147個(gè)屬性,涵蓋了圍繞指定文物的時(shí)間跨度信息、分類學(xué)信息、主題描述信息、時(shí)空關(guān)系信息、復(fù)制權(quán)及版權(quán)信息、采集信息、計(jì)劃使用信息、所有人信息等34類著錄信息,隨著模型的不斷完善,類和屬性都可以進(jìn)行擴(kuò)展。所有類別均以 E 開頭,如 E1 CRM Entity(CRM 實(shí)體),E4 Period(時(shí)期);所有屬性均以 P 開頭,如 P1 is identified by(由…確定),P9 consists of(包括)。屬性兩端分別連接著代表“域”和“范圍”的類,定義類與類之間的特定關(guān)系。通過如此規(guī)范化的描述,基本可以滿足某一領(lǐng)域知識(shí)的基本體系結(jié)構(gòu),便于數(shù)據(jù)信息的存儲(chǔ)利用和共享。
國家文物局在2017年發(fā)布的《中華人民共和國文物保護(hù)行業(yè)標(biāo)準(zhǔn)(征求意見稿)》中的《文物數(shù)字化保護(hù)核心元數(shù)據(jù)》,是針對(duì)文物數(shù)字化保護(hù)中不同類型文物資源基本特征進(jìn)行描述的元數(shù)據(jù)標(biāo)準(zhǔn),是根據(jù)文物資源的共同特點(diǎn)確定的元數(shù)據(jù)集合。該標(biāo)準(zhǔn)僅定義文物元數(shù)據(jù)的核心元素集,作為各領(lǐng)域元數(shù)據(jù)互操作的一個(gè)基礎(chǔ)元素集,適用于各類文物信息資源的基本特征描述。在基于特定需求的具體項(xiàng)目或應(yīng)用中可以增加額外的限制、規(guī)則和解釋[10]。該核心元數(shù)據(jù)由20個(gè)元素組成,可以描述所有文物藏品的基礎(chǔ)信息,并可以通過增加元素集來針對(duì)不同文物進(jìn)行描述。表2為文物數(shù)字化保護(hù)核心元數(shù)據(jù)的20個(gè)指標(biāo)項(xiàng)與 CIDOC CRM 的映射,通過映射來完成文物知識(shí)圖譜來源數(shù)據(jù)庫的預(yù)處理工作。
2.2 知識(shí)抽取
在知識(shí)抽取環(huán)節(jié),不同主題的數(shù)據(jù)來源于各現(xiàn)成的數(shù)據(jù)庫,且數(shù)據(jù)庫本身較為規(guī)范,可以通過分析軟件自動(dòng)抽取,而在文物藏品領(lǐng)域,目前為止并未有足夠支持文物知識(shí)圖譜的數(shù)據(jù)庫,且數(shù)據(jù)庫來源復(fù)雜,標(biāo)準(zhǔn)眾多,因此博物館的知識(shí)圖譜的構(gòu)建一般都利用各自的館藏文物數(shù)據(jù)庫加上領(lǐng)域?qū)<?,針?duì)某個(gè)主題進(jìn)行構(gòu)建,相對(duì)來說人工干預(yù)較多,自動(dòng)化程度較低。這是一直以來未能解決的問題。
浙江大學(xué)的張娜在畢業(yè)論文中提出了一種基于半監(jiān)督學(xué)習(xí)的三元組文物關(guān)系自動(dòng)抽取算法,通過改進(jìn) Tri-training 模型來抑制半監(jiān)督學(xué)習(xí)中的語義漂移問題。若能夠結(jié)合文物數(shù)據(jù)庫元數(shù)據(jù)預(yù)處理環(huán)節(jié),則可進(jìn)一步控制自動(dòng)抽取環(huán)節(jié)的語義偏差,產(chǎn)生較好的知識(shí)抽取效果,更加適合文物數(shù)據(jù)庫的關(guān)系抽取工作。
2.3 知識(shí)加工與融合
一般來說,文物知識(shí)圖譜的知識(shí)加工與融合方法主要包括兩類,即:基于多個(gè)知識(shí)圖譜的融合方法、基于多源異構(gòu)數(shù)據(jù)的融合方法(圖4)。
其中,在基于多個(gè)知識(shí)圖譜的融合方法中,首先每個(gè)知識(shí)圖譜都是由一個(gè)獨(dú)立的文物數(shù)據(jù)庫構(gòu)建而得,然后再將各個(gè)知識(shí)圖譜融合為一個(gè)知識(shí)圖譜,主要包括四個(gè)步驟,即:概念融合、實(shí)體對(duì)齊、屬性對(duì)齊以及屬性值融合。
在概念融合步驟中,由于文物數(shù)據(jù)庫的特殊性,主要采取人工方法進(jìn)行匹配以保證融合質(zhì)量。在實(shí)體對(duì)齊步驟中,主要采取集體對(duì)齊的方式,即考慮整個(gè)文物知識(shí)圖譜的信息進(jìn)行匹配。之后再進(jìn)行屬性對(duì)齊以及屬性值的融合,包括刪除重復(fù)知識(shí)和去除錯(cuò)誤知識(shí)。
而基于多源異構(gòu)數(shù)據(jù)的融合方法是輸入多源異構(gòu)的數(shù)據(jù)庫,比如互聯(lián)網(wǎng)頁面或者其他知識(shí)圖譜等,最終輸出一個(gè)融合后的文物知識(shí)圖譜,這一類的典型代表是谷歌公司的 Knowledge Vault[11]。它采用全自動(dòng)的信息搜集整合機(jī)制,沒有任何人工干預(yù),通過相關(guān)算法從互聯(lián)網(wǎng)自動(dòng)搜集信息,之后將信息整編為可用內(nèi)容并入庫。目前,Knowlegde Vault 的入庫信息已達(dá)16億條,其中2.7億條內(nèi)容被認(rèn)定為“事實(shí)”(即谷歌公司通過大數(shù)據(jù)分析所得結(jié)果真實(shí)性在90%以上的內(nèi)容)。
Knowlegde Vault 主要由三部分組件構(gòu)成:知識(shí)抽取器,主要以互聯(lián)網(wǎng)頁面作為數(shù)據(jù)源進(jìn)行知識(shí)抽取;知識(shí)推理器從知識(shí)圖譜自身推理出新知識(shí),并計(jì)算相應(yīng)三元組成立的概率;知識(shí)融合器訓(xùn)練一個(gè)回歸模型,從知識(shí)抽取器和知識(shí)推理器中得到每條信息的最終可信度[12]。
2.4 常用知識(shí)圖譜的構(gòu)建工具
目前文物類知識(shí)圖譜的構(gòu)建一般采用建模+系統(tǒng)開發(fā)的方法,選取典型文物,借助大量的專家資源完成知識(shí)圖譜的規(guī)則設(shè)置和模型建構(gòu),可擴(kuò)展性、可復(fù)制性較差。如果能夠在規(guī)范文物元數(shù)據(jù)體系的基礎(chǔ)上,應(yīng)用現(xiàn)成的知識(shí)圖譜構(gòu)建工具,根據(jù)實(shí)際情況對(duì)工具的模塊和算法進(jìn)行更改和調(diào)整,則可能會(huì)給文物知識(shí)圖譜的構(gòu)建帶來新的思路。
國內(nèi)常用的構(gòu)建工具有Pajek、CiteSpace,國外常用的工具有 UCINET、Gephi、VOSviewer、Van- tagePoint、Sci2等。下面選取幾個(gè)具有代表性的工具進(jìn)行介紹,以探討針對(duì)文物進(jìn)行知識(shí)圖譜構(gòu)建的可能性。
2.4.1 CiteSpace簡介[13]
CiteSpace是美國雷德賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院的陳超美博士于2004年開發(fā)的一款信息可視化分析軟件??梢苑治瞿硞€(gè)領(lǐng)域具有開創(chuàng)性和標(biāo)志性的作品,分析某個(gè)領(lǐng)域起關(guān)鍵作用的知識(shí)拐點(diǎn)標(biāo)志物,可以找出某個(gè)領(lǐng)域中主流地位的主題以及不同領(lǐng)域之間的關(guān)聯(lián)。它可以通過分析某個(gè)領(lǐng)域中的潛在知識(shí),以可視化的手段呈現(xiàn)其體系結(jié)構(gòu)、規(guī)律和分布情況,并且顯示該領(lǐng)域可能的發(fā)展新趨勢(shì)和新動(dòng)態(tài)。
CiteSpace以動(dòng)態(tài)追蹤、可視化與序列化兼具以及知識(shí)圖譜構(gòu)建功能完整為最大特點(diǎn)。其中,CiteSpace可以通過對(duì)特定領(lǐng)域文獻(xiàn)的相關(guān)數(shù)據(jù)的計(jì)量,對(duì)該學(xué)科領(lǐng)域或研究方向的文獻(xiàn)數(shù)據(jù)進(jìn)行動(dòng)態(tài)追蹤,以探索該領(lǐng)域的演化路徑和知識(shí)拐點(diǎn)。
CiteSpace展示的既是可視化的知識(shí)圖形,又是序列化的知識(shí)譜系,它可以顯示知識(shí)單元或知識(shí)群之間的網(wǎng)絡(luò)、結(jié)構(gòu)、互動(dòng)、交叉、演化或衍生等諸多復(fù)雜的關(guān)系。利用CiteSpace可以幫助剛進(jìn)入某一科學(xué)領(lǐng)域的研究者對(duì)該領(lǐng)域建立全面完整的認(rèn)識(shí),識(shí)別領(lǐng)域的研究熱點(diǎn)以及預(yù)測(cè)學(xué)科的發(fā)展趨勢(shì)。? 2.4.2 Gephi 簡介[14]
Gephi 是一款跨平臺(tái)的基于 JVM 的復(fù)雜網(wǎng)絡(luò)分析軟件,主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),可以實(shí)現(xiàn)動(dòng)態(tài)和分層圖的交互可視化與探索開源工具。它可以處理巨大規(guī)模的數(shù)據(jù)量,支持100,000個(gè)節(jié)點(diǎn)和1,000,000條邊,適合搭建大型的知識(shí)圖譜。Gephi 界面優(yōu)美,允許開發(fā)者擴(kuò)展及編寫插件,具有很強(qiáng)的可擴(kuò)展性。
作為知識(shí)圖譜的分析與構(gòu)建工具,Gephi 可提供類似 Excel 的界面來操作數(shù)據(jù)列以及搜索和轉(zhuǎn)換數(shù)據(jù)。同時(shí),Gephi 提供中間中心性、緊密性、直徑、聚類系數(shù)、社區(qū)檢測(cè)(模塊化)等多種分析方法,以用于知識(shí)圖譜網(wǎng)絡(luò)的構(gòu)建。
Gephi 以可擴(kuò)展性強(qiáng)、實(shí)時(shí)可視化、探索性強(qiáng)以及動(dòng)態(tài)過濾等功能作為最大特點(diǎn)。其中,Gephi 一直以來致力于研究如何進(jìn)行交互式和高效的網(wǎng)絡(luò)探索,是動(dòng)態(tài)圖形分析創(chuàng)新的先鋒。它提供豐富的圖像處理工具,能夠直觀地顯示知識(shí)圖譜的復(fù)雜聯(lián)系。2.4.3 VOSviewer簡介[15]
VOSviewer是由荷蘭萊頓大學(xué)的NeesJanvan? Eck 與Ludo Waltman 共同開發(fā)的,用于構(gòu)建可視化網(wǎng)絡(luò)知識(shí)圖譜計(jì)量分析軟件。它以智能可視化、傻瓜化操作以及基于關(guān)聯(lián)強(qiáng)度的數(shù)據(jù)處理為最大特點(diǎn)。VOSviewer使用類似谷歌地圖的縮放和滾動(dòng)功能,可以詳細(xì)探索知識(shí)圖譜。同時(shí)提供圖譜關(guān)鍵部分的快速概述和隨時(shí)間變化的演變軌跡。
VOSviewer的結(jié)果試圖使用標(biāo)簽來呈現(xiàn),即每一個(gè)節(jié)點(diǎn)用一個(gè)圓圈表示,圓圈大小表示節(jié)點(diǎn)的重要程度,若節(jié)點(diǎn)被劃分為不同的聚類,則圓圈顏色不同。另外,知識(shí)圖譜上的每個(gè)節(jié)點(diǎn)都可根據(jù)其密度進(jìn)行顏色填充,兩極顏色為紅色和藍(lán)色,節(jié)點(diǎn)越大,權(quán)重越大,顏色越接近紅色;反之,若節(jié)點(diǎn)越小,權(quán)重越小,顏色越接近藍(lán)色。
3 文物知識(shí)圖譜構(gòu)建的嘗試與實(shí)踐
在文物知識(shí)圖譜構(gòu)建的嘗試與實(shí)踐方面,國內(nèi)高校及文博行業(yè)一直在進(jìn)行積極有益的探索。
3.1 文物知識(shí)圖譜構(gòu)建
比如西北大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)學(xué)院的邱超[16],提出了一種基于 web 文本的文物知識(shí)圖譜自動(dòng)生成方法。該方法將特征詞集的思路融合到文物知識(shí)點(diǎn)抽取規(guī)則生成算法中,以減少生成部分的人工干預(yù)成分,極大提高了工作效率和準(zhǔn)確性。采用規(guī)則和極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)相結(jié)合的文物知識(shí)點(diǎn)抽取算法以及基于聯(lián)合索引的資源描述框架(Resource Description Framework, RDF)的文物知識(shí)點(diǎn)存儲(chǔ)方法,實(shí)現(xiàn)了文物知識(shí)點(diǎn)的快速檢索。
浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的張娜[17]提出了一種基于半監(jiān)督學(xué)習(xí)的文物關(guān)系抽取算法,在算法中使用經(jīng)過改進(jìn)的三分類器協(xié)同訓(xùn)練模型(Tri- training Model),用于文物關(guān)系的自動(dòng)抽取工作。
中國國家博物館在2019年針對(duì)館藏文物開始進(jìn)行文物知識(shí)圖譜的構(gòu)建工作,目前已初步完成館藏文物影像元數(shù)據(jù)體系的搭建,以 CIDOC CRM 模型為基礎(chǔ),并可與該模型進(jìn)行一一映射,簡單易行,方便擴(kuò)展。其中,以對(duì)青銅器類中婦好鴟鵂尊[18]的文物知識(shí)圖譜構(gòu)建為例,如圖5所示。
將文物與相關(guān)人物通過事件、地址、時(shí)期等屬性進(jìn)行關(guān)聯(lián),繪制出一幅典型的可擴(kuò)展可描述的文物知識(shí)圖譜模型。但由于國家博物館館藏文物數(shù)量較大,相關(guān)信息較多,且對(duì)于各類文物的研究內(nèi)容進(jìn)展不同、豐富程度不同,因此,在制作文物知識(shí)圖譜的過程中,耗時(shí)較長,且只能分類處理,進(jìn)行專題描述,暫時(shí)無法形成覆蓋全館所有文物類型的文物知識(shí)圖譜模型。
3.2 藏品文物知識(shí)問答
天津大學(xué)軟件工程專業(yè)的楊偉強(qiáng)[19]則通過與山西博物院的專家合作,共同完成館內(nèi)100件具有代表性的館藏文物的文物知識(shí)圖譜構(gòu)建,提出了一種用于知識(shí)表達(dá)的本體模型和標(biāo)準(zhǔn)規(guī)范,并通過設(shè)計(jì)包括基于圖數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)模型轉(zhuǎn)換和知識(shí)融合等的基礎(chǔ)模塊,實(shí)現(xiàn)了山西博物院館藏文物的知識(shí)圖譜構(gòu)建,在藏品文物檢索、文物知識(shí)問答等方面初步實(shí)現(xiàn)人機(jī)交互,同時(shí)可以進(jìn)一步支撐諸如文物陳列展覽、文獻(xiàn)研究等內(nèi)容的輔助決策功能。但由于只是圍繞著100件文物展開的研究與嘗試,在文物規(guī)模上不夠龐大,在文物類型覆蓋面上也不夠廣泛。且因?yàn)榇罅康奈奈镏R(shí)信息是以自然語言形式存在,在前期的自然語言規(guī)范形式上受到較多的限制,可能出現(xiàn)文物知識(shí)問答偏差等問題。
3.3 文物知識(shí)圖譜可視化展示
萬達(dá)信息承建的上海博物館“董其昌數(shù)字人文”專題書畫知識(shí)圖譜,則是針對(duì)董其昌書畫作品及對(duì)其書畫生涯產(chǎn)生重要影像的鑒藏、交游、教育、傳承等人文脈絡(luò),采用機(jī)器學(xué)習(xí) CNN 深度模型卷積網(wǎng)絡(luò)研發(fā)了圖像關(guān)聯(lián) AI 引擎,對(duì)董其昌書畫作品的數(shù)字圖像及繪畫元素進(jìn)行分析,以可視化的形態(tài)為董其昌研究設(shè)計(jì)了一個(gè)“主體—表達(dá)—時(shí)代”的綜合維度,逐步形成繪畫元素標(biāo)準(zhǔn)樣本國際平臺(tái)。同時(shí),通過機(jī)器學(xué)習(xí)建立社會(huì)網(wǎng)絡(luò)關(guān)系圖,為更好地理解其交游圈,對(duì)他的多方位影像給出了立體圖景。
同時(shí),利用 python、Gephi 等可視化方式繪制了董其昌的大事作品年表、作品可視化、書畫船欄目、社會(huì)網(wǎng)絡(luò)關(guān)系圖等,并預(yù)留了與中國歷史人物傳記資料庫、中國歷史地圖集等數(shù)據(jù)庫的接口,為未來的進(jìn)一步豐富打下了基礎(chǔ)。但作為文物知識(shí)圖譜而言,數(shù)據(jù)量和覆蓋范圍偏小,且大量工作是由人工方式完成,如何實(shí)現(xiàn)知識(shí)圖譜中數(shù)據(jù)自動(dòng)化導(dǎo)入和更新并且保證準(zhǔn)確性、有效性,將是未來重點(diǎn)需要研究的工作。
這些在文物知識(shí)圖譜領(lǐng)域進(jìn)行的嘗試和研究,對(duì)于讓博物館的文物真正“活”起來,讓博物館更好地講好文物背后的故事有著非常重要的意義。因?yàn)檫@讓越來越多的文物工作者看到了在“智能+”時(shí)代博物館的更多可能性,同時(shí)也讓更多的觀眾更加體會(huì)到文物的魅力以及中國文化的博大精深。
3.4 文物知識(shí)圖譜輔助決策
天津大學(xué)張加萬團(tuán)隊(duì)為故宮92周年“發(fā)現(xiàn)·養(yǎng)心殿—主題數(shù)字體驗(yàn)展”而構(gòu)建的“養(yǎng)心殿知識(shí)圖譜”,打通了文物之間的界限,讓資源無限共享,進(jìn)而從文物角度關(guān)聯(lián)整個(gè)中國歷史文化。不僅如此,通過充分運(yùn)用云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動(dòng)通信等新一代信息技術(shù)成果,感知、分析、處理博物館(群)運(yùn)行的各項(xiàng)關(guān)鍵信息,實(shí)現(xiàn)博物館智慧管理、智慧保護(hù)、智慧服務(wù)三大能力,從而真正實(shí)現(xiàn)“智慧博物館”概念,讓文物真正“活”起來。
4 結(jié)論
隨著社會(huì)信息化程度的不斷提高與深入發(fā)展,如何更好地利用文物大數(shù)據(jù)開展工作,一直以來是博物館行業(yè)思考的方向。當(dāng)前大量的文物知識(shí)圖譜管理與應(yīng)用方法仍是將知識(shí)圖譜當(dāng)作普通的圖數(shù)據(jù)或是輔助展覽的可視化工具,缺乏對(duì)于知識(shí)圖譜語義信息與減少人工干預(yù)等方面的深入考慮。因此,本文試圖回歸知識(shí)圖譜構(gòu)建的本質(zhì),通過介紹目前知識(shí)圖譜構(gòu)建領(lǐng)域的一些新思路與新形式,結(jié)合文物數(shù)據(jù)庫的特點(diǎn),在文物知識(shí)圖譜構(gòu)建的三個(gè)環(huán)節(jié)中,增加數(shù)據(jù)預(yù)處理環(huán)節(jié),選擇最適合文物知識(shí)圖譜構(gòu)建的知識(shí)抽取與知識(shí)融合方式。另外,在知識(shí)融合方面,通過增加文物規(guī)模和覆蓋面,進(jìn)一步準(zhǔn)確地將抽取的實(shí)體和知識(shí)圖譜中對(duì)應(yīng)的實(shí)體進(jìn)行鏈接。
當(dāng)然,文物數(shù)據(jù)庫的數(shù)據(jù)量比之其他領(lǐng)域或者整個(gè)網(wǎng)絡(luò)世界而言,并不算是規(guī)模巨大,那些關(guān)于文物知識(shí)圖譜構(gòu)建工作的嘗試,雖然可能還處于探索階段,但非常值得關(guān)注。而復(fù)雜網(wǎng)絡(luò)領(lǐng)域積累的大量的真實(shí)網(wǎng)絡(luò)分析方法,如果能夠?qū)⑦@些豐富的方法用于文物知識(shí)圖譜的實(shí)證研究,對(duì)于文物知識(shí)圖譜的新的認(rèn)知機(jī)制的發(fā)現(xiàn),也有著巨大的價(jià)值。
參考文獻(xiàn)
[1]閆樹,魏凱,洪萬福,等.知識(shí)圖譜技術(shù)與應(yīng)用[M].北京:人民郵電出版社,2019:2-3.
[2]N. Shadbolt, T. Berners-Lee, W. Hall. The Semantic Web Re- visited[J]. IEEE Intelligent Systems, 2006, 21(3):96-101
[3]Rafols I, Porter A L, Leydesdorff L. Science overlay maps: A new tool for research policy and library management[J]. Journal of the American? Society for Information? Science and Technology, 2010, 61(9):1871-1887.
[4]肖仰華,徐波,林欣,等.知識(shí)圖譜:概念與技術(shù)[M].北京:電子工業(yè)出版社,2020:2-3.
[5]劉則淵,陳悅,侯海燕.科學(xué)知識(shí)圖譜:方法與應(yīng)用[M].北京:人民出版社,2008:385.
[6]Linked Open Data. About the diagram [EB/OL].[2020-03-18].https://lod-cloud.net/.
[7]肖仰華,徐波,林欣,等.知識(shí)圖譜:概念與技術(shù)[M].北京:電子工業(yè)出版社,2020:31-32.
[8]ICOM/CIDOC CRM Special Interest Group. Short Intro of CIDOC CRM[EB/OL].[2020-01-08]. http://www.cidoc-crm. org/node/202.
[9]ICOM/CIDOC? CRM? Special? Interest? Group. Functional Overview of CIDOC CRM [EB/OL].[2020-01-08]. http://www.cidoc-crm.org/functional-units.
[10]中華人民共和國國家文物局.文物數(shù)字化保護(hù)核心元數(shù)據(jù)[S/EB].中華人民共和國文物保護(hù)行業(yè)標(biāo)準(zhǔn)(征求意見稿).(2017-03-10)[2020-01-13].
[11]Xin? Dong,? Evgeniy? Gabrilovich,? GeremyHeitz,etc. Knowledge vault: A web-scale approach to probabilistic knowledge fusion [C]. The 20th ACM SIGKDD interna- tional conference on Knowledge discovery and data min- ing, New York, America:2014.
[12]Hal Hodson. Google's fact-checking bots build vast knowl- edge bank[EB/OL].[2020-03-24]. https://www.newscientist. com/article/mg22329832-700-googles-fact-checking-bots-? build-vast-knowledge-bank/#.U_rpfKN0Nc4.
[13]陳悅,陳超美,劉則淵,等.CiteSpace知識(shí)圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242-253.
[14]Gephi. The Open Gragh Viz Platform [EB/OL].[2020-03-22].https://gephi.org/.
[15]VOSviewer. Welcome to VOSviewer [EB/OL].[2020-03-22].https://www.vosviewer.com/.
[16]邱超.基于Web 文本的文物知識(shí)圖譜自動(dòng)生成方法研究[D].西安:西北大學(xué),2016.
[17]張娜.文物知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)研究與應(yīng)用[D].杭州:浙江大學(xué),2019.
[18]中國國家博物館.中國國家博物館館藏文物研究叢書.青銅器卷(商)[M].上海:上海古籍出版社,2020:139.
[19]楊偉強(qiáng).文物知識(shí)圖譜的構(gòu)建與應(yīng)用[D].天津:天津大學(xué), 2018.
(2020-09-25收稿,2021-12-08修回)
作者簡介:戴畋(1987—),女,館員,主要研究方向:智慧博物館標(biāo)準(zhǔn)化體系研究、智慧博物館知識(shí)圖譜與智能問答研究, E-mail:daitian5049@163.com。
Practice and Research on the Cultural Relics Knowledge Graph Construction in the context of Museum Intelligence// DAI Tian
Author's Address? The National Museum of China, E-mail:daitian5049@163.com .
Abstract? The museum has been shouldered the task of spreading and sharing cultural knowledge andpreserving? cultural? heritage . With? the? development? of? network? digitalization,? the? needs? of? the audience and users for cultural knowledge continue to develop, as well as the appreciation level of historical and cultural? knowledge is also improved . Therefore, it is? necessary for museums to fully explore the internal information of cultural relics and relations between cultural relics and history . As a means of data mining, knowledge graph has been paid more and more attention by the culture and museum? industry? which? is? characterized? by? large? amount? of? data ?processing,? high? degree? of processing? automation,? strong? ability? of? learning? and? expansion,? and? visualization? of? processing results . More and? more? museums? begin to? use the cultural? relic? knowledge graph to excavate the cultural relic information that make positive and beneficial attempts in the cultural relic knowledge graph construction.
Keywords? Smart Museum, knowledge graph, data mining