牛魁明
關(guān)鍵詞:文物保護(hù);知識(shí)圖譜;三元組;關(guān)聯(lián)數(shù)據(jù)
1構(gòu)建文物知識(shí)圖譜的關(guān)鍵技術(shù)
1.1實(shí)體抽取技術(shù)
實(shí)體抽取技術(shù)又被稱作實(shí)體識(shí)別技術(shù)。該技術(shù)指在原始語料中自動(dòng)識(shí)別和獲取命名實(shí)體。常見的實(shí)體抽取技術(shù)主要包括通過統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法抽取實(shí)體、根據(jù)規(guī)范和字典抽取實(shí)體以及通過深度認(rèn)知技術(shù)抽取實(shí)體。近年來,科學(xué)家嘗試以國際微生物命名規(guī)范和國際微生物學(xué)字典為依據(jù)確定文件中的微生物命名,并建立以國際微生物名稱標(biāo)準(zhǔn)為依據(jù)的實(shí)體識(shí)別方法。技術(shù)人員便可以通過改進(jìn)條件獲得明信片中的地址實(shí)體。部分技術(shù)人員通過微博文腳本在滑動(dòng)窗口上創(chuàng)建預(yù)測標(biāo)簽,并通過深度認(rèn)知技術(shù)完成實(shí)體識(shí)別。博物館文物知識(shí)中涉及較多專用名詞,名詞命名規(guī)律并不具備規(guī)律,當(dāng)文物名稱在文本中出現(xiàn)時(shí),很難利用機(jī)器學(xué)習(xí)識(shí)別文物正確名稱。所以,為了保證抽取實(shí)體準(zhǔn)確率,必須采用以詞典和規(guī)則為基礎(chǔ)的方法達(dá)成實(shí)體抽取目標(biāo)。
1.2實(shí)體關(guān)系和屬性抽取技術(shù)
實(shí)體關(guān)系和屬性抽取技術(shù)通過三元組表示方法呈現(xiàn),即通過“實(shí)體一關(guān)系一實(shí)體”的對(duì)象屬性或“實(shí)體一屬性一屬性值”方式表達(dá)。其中,屬性指的是數(shù)據(jù)屬性,數(shù)據(jù)屬性的屬性值歸于文本類型,而對(duì)象屬性的屬性值則歸屬于另一個(gè)實(shí)體。而依照信息的資源類型劃分,三元組提取方法也可被劃分為2種類型,即基于基礎(chǔ)結(jié)構(gòu)化信息和半結(jié)構(gòu)化信息的三元組提取方法、基于非結(jié)構(gòu)化信息的三元組提取方法。基礎(chǔ)結(jié)構(gòu)化或半結(jié)構(gòu)化信息都具有一種較好的分布結(jié)構(gòu),大眾能夠很容易地在其中獲取所需的三元組。而非結(jié)構(gòu)化數(shù)據(jù)僅使用比較規(guī)則,屬于自然語言的文本類型,由于中文句法和語言系統(tǒng)的復(fù)雜性特點(diǎn)導(dǎo)致三元組工作過程具有復(fù)雜特征。目前,常見提取技術(shù)分為基于深度學(xué)習(xí)的三元組提取、基于機(jī)器歇息的三元組提取以及基于模式匹配的三元組提取。
1.3實(shí)體鏈接技術(shù)
在知識(shí)融合的過程中,要對(duì)抽取的三元組進(jìn)行有效處理,再將其融人自身知識(shí)圖譜之中,包括實(shí)體消歧和鏈接2種方式。其中,實(shí)體消歧指的是把名字中具有歧義的成分映射到具體知識(shí)中,以避免同一個(gè)實(shí)體的一詞多義現(xiàn)象?;窘鉀Q辦法將候選實(shí)物與知識(shí)圖譜中的實(shí)體指稱一個(gè)特征向量,并對(duì)其展開聚馓花序,完成整個(gè)實(shí)物消歧過程。進(jìn)行消歧作用時(shí),將其連接在圖上已出現(xiàn)的實(shí)物上,這稱為實(shí)體連接。
2構(gòu)建文物知識(shí)圖譜的實(shí)際流程
知識(shí)圖譜在實(shí)質(zhì)上屬于一種以圖像為基本的語義網(wǎng)絡(luò)內(nèi)容,其主體部分就是節(jié)點(diǎn)和邊。這里的節(jié)點(diǎn)主要指的是現(xiàn)實(shí)世界中實(shí)體內(nèi)容,邊指的是實(shí)體間的內(nèi)在聯(lián)系。知識(shí)圖譜使實(shí)際世界中的所有實(shí)體之間形成了聯(lián)系,主體結(jié)構(gòu)由“實(shí)體一關(guān)系一實(shí)體”或“實(shí)體一屬性一屬性值”這類三元組所構(gòu)成。以知識(shí)圖譜為基礎(chǔ)的搜索引擎,實(shí)現(xiàn)了從傳統(tǒng)Web頁面連接到實(shí)體連接之間的轉(zhuǎn)換,能夠直接為用戶指明搜索主體,在語義方面服務(wù)用戶獲取檢索意圖。通過知識(shí)圖譜檢索方式,用戶可以精準(zhǔn)獲取所需信息,具體流程如下。
2.1知識(shí)表示
半結(jié)構(gòu)化數(shù)據(jù)中包括很多文物知識(shí),知識(shí)圖譜中的數(shù)據(jù)存儲(chǔ)形式具備結(jié)構(gòu)化特征。所以,文物知識(shí)圖譜主要研究的內(nèi)容是在結(jié)構(gòu)化數(shù)據(jù)中獲取文物結(jié)構(gòu)化知識(shí),整合與構(gòu)建文物知識(shí)圖譜,將其應(yīng)用到文物知識(shí)推理中。而文物知識(shí)圖譜的形成與應(yīng)用過程蘊(yùn)含的關(guān)鍵概念是文物人士表示。例如,國際萬維網(wǎng)協(xié)會(huì)所制定的資源描述框架技術(shù)標(biāo)準(zhǔn)就是以三元組表示為依據(jù)。當(dāng)前,知識(shí)信息表示技術(shù)仍然面臨知識(shí)信息缺失和運(yùn)算質(zhì)量較低等情況。傳統(tǒng)知識(shí)庫的知識(shí)信息表示技術(shù)以一階謂詞為基準(zhǔn),構(gòu)成了符號(hào)信息表示模式中的最后一類,可以有效拓展二階邏輯信息表示功能?,F(xiàn)代知識(shí)庫圖譜在語義描述領(lǐng)域的范圍已大幅縮小,以事實(shí)的知識(shí)為基礎(chǔ)特征。隨著計(jì)算式知識(shí)發(fā)展和深度神經(jīng)網(wǎng)絡(luò)發(fā)展,向量數(shù)據(jù)表征方法也將日益受到大眾關(guān)注。對(duì)于以向量數(shù)據(jù)為核心的表征目的可以有效表述的實(shí)體數(shù)據(jù),如非結(jié)構(gòu)化的數(shù)據(jù)。利用計(jì)算機(jī)學(xué)習(xí)、數(shù)據(jù)方法等手段的向量特點(diǎn),可以把具體的文物關(guān)系抽象成數(shù)字的向量特征,為文物關(guān)系的發(fā)現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。
以向量為基礎(chǔ)的知識(shí)可以被嚴(yán)格地區(qū)分為無知識(shí)表示與知識(shí)表示2個(gè)形式。其中,無學(xué)習(xí)數(shù)據(jù)表示方式中的最常用表示方式就是單獨(dú)熱表。這種描述方式把知識(shí)描述成只具有一個(gè)維度的非零向量。為區(qū)別不同知識(shí),獨(dú)熱表示向量的向量維度更多。獨(dú)熱表示不能充分利用對(duì)象間語義相似度信息,會(huì)受到數(shù)據(jù)不足影響,計(jì)算效率無法得到提升。知識(shí)表示相對(duì)于獨(dú)熱表示而言,通過有效學(xué)習(xí)階段能夠有效使用對(duì)象間語義信息,減少知識(shí)表示向量維度。近年來,知識(shí)表示技術(shù)的出現(xiàn)使得研究人員逐漸從多維角度解決復(fù)雜建模問題,也逐漸構(gòu)建了多個(gè)新模型,提升了表示性能。
2.2知識(shí)抽取
博物館專家大多通過人工整理的方法建立了知識(shí)圖譜數(shù)據(jù),工作效率不能得到提升,自動(dòng)化和數(shù)字化的特點(diǎn)還不夠突出,無法形成大規(guī)模、標(biāo)準(zhǔn)化和系列化的數(shù)據(jù)系統(tǒng)。所以,便捷地獲取和加工文物保護(hù)信息是形成知識(shí)圖譜的關(guān)鍵環(huán)節(jié)。在文物知識(shí)獲取過程中,所有文物數(shù)據(jù)都主要來自現(xiàn)存的博物館數(shù)據(jù)庫,而數(shù)據(jù)庫中數(shù)據(jù)又多為結(jié)構(gòu)化的網(wǎng)頁信息和非結(jié)構(gòu)化文本信息,其中包括圖片、考古文獻(xiàn)、歷史資料,以及網(wǎng)絡(luò)數(shù)據(jù)等。而通過人工獲取數(shù)據(jù)信息并無法完成專業(yè)知識(shí)的積累,而必須借助數(shù)字化機(jī)器技術(shù)和深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)。知識(shí)抽取方法主要分為文物特性抽取、關(guān)系提取、實(shí)物抽取和屬性提取等。在知識(shí)提取基礎(chǔ)上對(duì)專業(yè)知識(shí)加以總結(jié),并綜合了實(shí)物對(duì)齊、質(zhì)量評(píng)價(jià)以及知識(shí)更新等內(nèi)容,從而形成了較為完整的文物知識(shí)圖譜。
2.3知識(shí)融合
除了數(shù)據(jù)描述與數(shù)據(jù)提取技能,數(shù)據(jù)圖譜的形成還必須考慮多源數(shù)據(jù)整合、復(fù)雜推理方法等。知識(shí)整合主要指的是通過對(duì)齊多種數(shù)據(jù)信息,并對(duì)數(shù)據(jù)加以有效整合,以建立全局一致的信息標(biāo)識(shí)并與知識(shí)關(guān)聯(lián)。知識(shí)整合也是知識(shí)圖譜建設(shè)中的重要環(huán)節(jié),通過開展知識(shí)整合工作可充分體現(xiàn)更開放的信息意識(shí)和互聯(lián)思想。比如,TransE使用了知識(shí)圖譜中的三元組結(jié)構(gòu)信息達(dá)成了表示學(xué)習(xí)目的。因此,整合這些異構(gòu)多源數(shù)據(jù),對(duì)于知識(shí)庫的整合來說十分必要?;诒倔w描述中的知識(shí)庫表示方式學(xué)習(xí)模式,以及在基于文本的知識(shí)庫中的知識(shí)表示方式具有代表性特點(diǎn)。多源信息整合有助于提高信息表示效能,也有助于提高信息實(shí)體的表征特性。多源信息整合的數(shù)據(jù)圖譜建設(shè)仍處在初期,成果數(shù)量很少,大量數(shù)據(jù)資料還不能得到考慮,仍具有相當(dāng)廣闊的研究空間。另外,以關(guān)系路徑知識(shí)表示學(xué)習(xí)為基礎(chǔ),通過實(shí)體關(guān)系和關(guān)系路徑的推理模式進(jìn)行推理已經(jīng)成為未來研究的重要方向。
2.4知識(shí)加工
通過數(shù)字化手段可以做到對(duì)文物保護(hù)資料與信息的合理調(diào)取與集成,也可以對(duì)文物保護(hù)信息進(jìn)行有效的整理。比如,信息推理、內(nèi)容創(chuàng)新和品質(zhì)評(píng)價(jià)等工作。以上文物信息與文物保護(hù)資料的信息與數(shù)據(jù)規(guī)范并不統(tǒng)一,如果是依據(jù)統(tǒng)一標(biāo)準(zhǔn)對(duì)它加以識(shí)別,將容易造成重疊及錯(cuò)誤數(shù)據(jù)現(xiàn)象的發(fā)生。因此,對(duì)抽取的文物保護(hù)信息進(jìn)行多次比較、加工,刪除統(tǒng)計(jì)重復(fù)的數(shù)據(jù),留下最完整規(guī)范的信息流。
3構(gòu)建文物知識(shí)圖譜的具體方法
3.1藏品文物知識(shí)問答
天津大學(xué)軟件工程專業(yè)學(xué)者楊偉強(qiáng)與山西博物館技術(shù)工作人員建立合作關(guān)系,根據(jù)博物院的100多件具有特色的博物館藏品所形成的信息圖譜,提供基于信息表達(dá)的本體模式和標(biāo)準(zhǔn)規(guī)范,實(shí)現(xiàn)以圖信息中數(shù)據(jù)的傳遞、信息保存與數(shù)據(jù)集成等最基本的信息功能。同時(shí),提供館藏文物查詢和文物信息問答等人機(jī)交互功能,以提高文物陳列展示、資料分析和信息的輔助管理能力。由于文物基礎(chǔ)僅有100件,文物基礎(chǔ)類型比較有效,所以文物覆蓋面也并不大。因此,大量文物的基礎(chǔ)資料依舊采用自然語言的方式表達(dá),在前期自然語言規(guī)范形式上會(huì)受到較大限制,可能會(huì)出現(xiàn)文物知識(shí)問答偏差的問題。問答偏差問題也是將來要攻克的主要知識(shí)問答弊端。
3.2文物知識(shí)圖譜可視化展示
董其昌數(shù)字人文知識(shí)圖譜中,以董其昌的書畫作品及其一生經(jīng)驗(yàn)為主要認(rèn)知線索,具有重要的影像交游、文化、鑒藏、藝術(shù)發(fā)展的歷史脈絡(luò)。應(yīng)用機(jī)器學(xué)習(xí)CNN模型與卷積網(wǎng)絡(luò)的圖像數(shù)據(jù)引擎,為董其昌的書畫作品提供了數(shù)字化展示與網(wǎng)絡(luò)化研究,并應(yīng)用可視化方式為董其昌作品提供了“主體一表達(dá)一時(shí)代”的綜合維度,建立了研究藝術(shù)元素和樣本的系統(tǒng)[1]。同時(shí),應(yīng)用機(jī)器學(xué)習(xí)并構(gòu)建社交媒體圖示,能夠更好地分析作者的交友圈,為其設(shè)計(jì)全方面立體化圖景。利用Gephi和Python可視化方式展現(xiàn)董其昌作品年表,預(yù)留我國歷史人物傳記資料庫和歷史地圖集這類數(shù)據(jù)庫接口,能夠?yàn)槲磥戆l(fā)展奠定基礎(chǔ)。對(duì)文物知識(shí)圖譜而言,其自身數(shù)據(jù)量和覆蓋范圍有限,大量工作均需要人工作業(yè)完成。實(shí)現(xiàn)知識(shí)圖譜自動(dòng)化導(dǎo)人和更新能夠提升圖譜的準(zhǔn)確性與穩(wěn)定性,知識(shí)圖譜準(zhǔn)確性的提升已經(jīng)成為未來工作的重要研究方向。文物知識(shí)圖譜范圍內(nèi)的知識(shí)研究可以保證博物館中的文物獲取新的活力,有利于博物館更好地?cái)⑹霰澈蠊适?,?qiáng)化大眾的文化素養(yǎng)。
3.3文物知識(shí)圖譜輔助決策
以“發(fā)現(xiàn)·養(yǎng)心殿——主題數(shù)字體驗(yàn)展”展覽為例,展覽中的知識(shí)圖譜打破了各個(gè)文物之間的壁壘,使得資源呈現(xiàn)出共享態(tài)勢,通過文物角度觀察到整個(gè)中國歷史文化的發(fā)展。利用云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)和移動(dòng)通信等新技術(shù),實(shí)現(xiàn)博物館智能管理、智慧服務(wù)和智慧保護(hù)3大功能,切實(shí)達(dá)成“智慧博物館”建設(shè)目標(biāo),給文物賦予了新的生命力[2]。
4構(gòu)建文物知識(shí)圖譜的未來展望
4.1擴(kuò)展現(xiàn)有知識(shí)表示方法
當(dāng)前科技背景下,以本體工程原理為依據(jù)的知識(shí)表述和知識(shí)描述仍然是知識(shí)圖譜形成的重要手段,而借助在RDFS和OWL中對(duì)知識(shí)元特征的明確界定,就可以形成知識(shí)圖譜模式層次的合理構(gòu)造。圖譜研究的焦點(diǎn)仍然聚焦于材料屬性、實(shí)物特征方面。文物描述中涵蓋大量時(shí)間、空間和歷史事件內(nèi)容,使得我們對(duì)文物背后的歷史認(rèn)識(shí)理解水平提高之后,必然拓展已有的認(rèn)識(shí)表達(dá)方式,對(duì)文物時(shí)序內(nèi)容、事件知識(shí)和空間知識(shí)表示方法進(jìn)行擴(kuò)充[3]。知識(shí)圖譜自身的關(guān)注重點(diǎn)逐漸被轉(zhuǎn)移到位置事件、時(shí)序等知識(shí)上,更高效地描繪事件發(fā)展變化特征,為預(yù)測類應(yīng)用形態(tài)提供必要支持。
4.2融合利用多源異質(zhì)數(shù)據(jù)
國內(nèi)各個(gè)地區(qū)的博物館數(shù)字化資源庫建設(shè)已經(jīng)成為共識(shí),數(shù)字化資源建設(shè)進(jìn)程也得到推進(jìn),獲得了一定成果[4]。數(shù)字化資源建設(shè)以大量結(jié)構(gòu)化數(shù)據(jù)為基礎(chǔ),當(dāng)前已經(jīng)提供了較多的結(jié)構(gòu)化數(shù)據(jù),但文字、圖片等非結(jié)構(gòu)化資源的提取數(shù)量卻仍然亟待增加。文物保護(hù)中的許多文物知識(shí)資料研究都是采用圖文信息融合的方法進(jìn)行,因?yàn)閳D片和文本信息都涉及文物資訊知識(shí),所以針對(duì)文物保護(hù)信息材料知識(shí)具備的特征,對(duì)文物保護(hù)意識(shí)的探索就應(yīng)以同時(shí)處理文本信息和影響信息的知識(shí)表示獲取方式為依據(jù),探索利用不同文字信息和圖片特點(diǎn)的獲得途徑,提高命名實(shí)體辨識(shí)準(zhǔn)確率和召回度,提高文物保護(hù)信息知識(shí)語言表達(dá)能力。
4.3構(gòu)建聚合式文物元數(shù)據(jù)模型
研究當(dāng)前國內(nèi)外各個(gè)博物館的網(wǎng)絡(luò)架構(gòu)和數(shù)字資源可以看出,大部分?jǐn)?shù)據(jù)項(xiàng)目均屬于獨(dú)立開展形式,國內(nèi)數(shù)據(jù)共享和管理模式?jīng)]有形成。如果利用信息圖譜方法,通過信息整合手段使不同領(lǐng)域數(shù)字化信息實(shí)現(xiàn)高效連接,就能產(chǎn)生以知識(shí)為主體的海量數(shù)據(jù)庫信息,可以為全面的信息系統(tǒng)資源整合提供條件,使之獲得足夠的技術(shù)手段與資料基礎(chǔ)[5]。若要更好地實(shí)現(xiàn)這一目標(biāo),則必須做到整合并明確不同行業(yè)、領(lǐng)域和企業(yè)的數(shù)據(jù)文物資源信息中的語義表達(dá)標(biāo)準(zhǔn),并深入發(fā)掘其內(nèi)涵關(guān)系,對(duì)數(shù)字文物資料內(nèi)涵進(jìn)行細(xì)粒度描述和去格式化語義描述。
在多重實(shí)踐證實(shí)的前提下,為了確定目前現(xiàn)有文化遺產(chǎn)理論,需要建立與多域元數(shù)標(biāo)準(zhǔn)一致的語義實(shí)踐框架模式。在維護(hù)這一框架的基礎(chǔ)上,通過整合更多源數(shù)據(jù)應(yīng)用程序概要,通過利用現(xiàn)有的成熟元數(shù)據(jù)基礎(chǔ)元素和語料內(nèi)容,迎合文化遺產(chǎn)范圍內(nèi)的其他類和屬性標(biāo)準(zhǔn)化協(xié)議,通過共同構(gòu)建聚合的元數(shù)據(jù)模型和實(shí)現(xiàn)對(duì)數(shù)據(jù)歷史的語義管理,降低元數(shù)據(jù)開發(fā)的整體成本。
4.4提供泛在化文物知識(shí)圖譜應(yīng)用服務(wù)
通過文物大數(shù)據(jù)分析的信息化采集形成文物信息圖像,并通過推擠分析技術(shù)發(fā)現(xiàn)不同文物具備的人文、歷史、藝術(shù)、思想和信仰等內(nèi)容,可以讓群眾對(duì)文物承載的歷史發(fā)展脈絡(luò)、社會(huì)演變過程有更加全面的了解。利用文物信息畫紙挖掘文物保護(hù)資源中內(nèi)容的有序化與信息間的相互關(guān)聯(lián),使用者可通過更加開放的軟件開發(fā)接口,在移動(dòng)通信設(shè)備以及APP、網(wǎng)站等系統(tǒng)應(yīng)用中嵌入獲取的信息數(shù)據(jù)集,為用戶提供更加廣泛的數(shù)字非物質(zhì)文化遺產(chǎn)服務(wù),從而確保了文物的信息資料被有效開放共享,進(jìn)一步提高了文物資訊、商品、服務(wù)渠道等信息消費(fèi)鏈條的設(shè)計(jì)效率,有效融合中華民族的優(yōu)秀傳統(tǒng)文化和現(xiàn)代公共文化服務(wù)體系。
5結(jié)束語
為適應(yīng)文物保護(hù)與文物管理工作的需要,滿足大眾對(duì)文物保護(hù)認(rèn)識(shí)的需求,應(yīng)該在當(dāng)前科技環(huán)境背景下引入新型手段。博物館文物知識(shí)圖譜系統(tǒng)應(yīng)用了新的互聯(lián)網(wǎng)信息技術(shù),作為博物館公教傳遞的新業(yè)務(wù)方式,通過建立與文物數(shù)據(jù)庫間的信息聯(lián)系,能夠把文物知識(shí)與數(shù)據(jù)資訊加以高效集成,并利用計(jì)算機(jī)等智能語言及時(shí)反映有關(guān)文物保護(hù)活動(dòng)的基本信息,從而有效地處理了文物資源保存、收集與展示過程中存在的各種問題。