国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多源異構數(shù)據(jù)的甲骨學知識圖譜構建方法研究

2020-04-21 03:57熊晶焦清局劉運通
浙江大學學報(理學版) 2020年2期
關鍵詞:甲骨甲骨文本體

熊晶,焦清局,劉運通

(1.安陽師范學院計算機與信息工程學院,河南安陽 455000; 2.甲骨文信息處理教育部重點實驗室,河南安陽455000)

甲骨文(oracle bone inscriptions, OBI)是現(xiàn)今已發(fā)現(xiàn)的成體系的最早文字,是中華民族傳統(tǒng)文化的瑰寶。甲骨文內(nèi)容繁復,涉及3 000 年前殷商時期的政治、王室、社會、經(jīng)濟、天文、生態(tài)、交通、地理、戰(zhàn)爭、宗教、文化等方面,具有極高的文物、史料和研究價值。從1899 年甲骨文被發(fā)現(xiàn)以來,經(jīng)海內(nèi)外學者120 年來的研究和探索,現(xiàn)已成為一門舉世矚目的國際性顯學——甲骨學(oracle bone studies,OBS)[1]。近年來,從事甲骨文研究的學者逐漸增多,尤其是2017 年11 月甲骨文成功入選《世界記憶名錄》后,甲骨文研究迎來了新發(fā)展。 隨著甲骨學研究的不斷推進,甲骨文數(shù)據(jù)日益豐富,并逐漸體現(xiàn)出多源異構的特性。如圖1 所示。

圖1 甲骨文多源異構數(shù)據(jù)Fig.1 OBI multi-source heterogeneous data

日益豐富的研究數(shù)據(jù)在帶來便利的同時也引發(fā)了新的問題,如數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)孤島林立、數(shù)據(jù)檢索困難、數(shù)據(jù)共享程度低等。同時,甲骨學研究存在學習難度大、學習周期長、知識關聯(lián)性弱、認知理解要求高等問題。在此背景下,迫切需要一種有效的甲骨學知識表示和組織方式。由于知識圖譜可為認知智能提供豐富的背景知識,因此,構建甲骨學知識圖譜可有效解決上述問題。

甲骨學研究需借助相關輔助學科[2],如借助考古學,解決甲骨出土問題;借助文獻學,解決甲骨學中的殷商歷史問題;借助語言學理論,解決甲骨學的語言文字問題;借助自然科學中的天文學、地理學、物理學和數(shù)學,解決甲骨學中的諸多問題[3]。因此,甲骨學研究涉及龐大的學科體系和知識群落。鑒于甲骨文的古籍特性,甲骨學研究必須依賴大量文獻資料,并基于文獻進行一系列的知識關聯(lián)分析。如學者與文獻的關系、學者及其合作關系、研究機構及其合作關系、文獻之間引用與被引用關系,這些都屬于科學知識圖譜[4](mapping knowledge domains,簡稱MKD)的研究范疇。MKD 研究均以文獻計量為主,側重分析學科的知識結構及知識群落,研究熱點及研究趨勢,研究機構、學者及其合作關系等宏觀知識,較少涉及領域微觀知識;MKD 的分析關系大多是直接或間接的淺層關系,且在語義解釋方面尚有不足[5],無法表達甲骨學領域中深層次的語義關聯(lián)關系,如甲骨文著錄與甲骨片的關系、甲骨片與甲骨片的關系、甲骨文異體字之間的關系、商王世系的關系、貞人與商王及卜辭的關系、祭祀、戰(zhàn)爭事件等。因此,僅僅依靠MKD 無法較好地表示甲骨學的領域知識[2]。

Knowledge graph[6](簡稱KG)可用統(tǒng)一的方式體現(xiàn)知識定義和知識實體兩個層次共同構成的知識系統(tǒng)[7]。KG 通過關系連接實體后,根據(jù)連接的路徑,將相關實體聯(lián)系起來獲取知識。KG 的構建大多基于大數(shù)據(jù),綜合維基百科等百科類數(shù)據(jù)、網(wǎng)絡知識庫、搜索日志、開放鏈接數(shù)據(jù)、社會網(wǎng)絡、眾包等資源實現(xiàn)實體抽取和實體鏈接,通常利用本體進行知識映射或知識融合。目前網(wǎng)絡上有關甲骨學數(shù)據(jù)及知識描述的資源極少,絕大多數(shù)甲骨學數(shù)據(jù)均以不同的形式存儲在各研究機構,因此,甲骨學領域需要重新考慮知識實體的發(fā)現(xiàn)及關系挖掘方法[2]。

綜上所述,構建甲骨學知識圖譜面臨以下挑戰(zhàn):(1) MKD 在表達微觀層面的甲骨學知識關聯(lián)方面存在不足,需要KG 來彌補;(2)從多源異構的數(shù)據(jù)源中進行知識抽取尚無通用方法,需要結合甲骨學數(shù)據(jù)特征進行;(3) 利用MKD 研究甲骨文文獻是必由之路,同時,在為構建甲骨學知識圖譜而引入新的數(shù)據(jù)模式時需考慮圖譜的融合問題;(4)研究甲骨學知識圖譜的文獻非常少,可用的開放鏈接資源稀缺,無法直接套用通用知識圖譜或其他領域知識圖譜的構建方法,需要專門研究面向甲骨學的知識圖譜構建方法。因此,本文融合MKD 和KG 兩類知識圖譜來構建甲骨學知識圖譜,以期解決甲骨學研究中存在的知識獲取、管理和共享問題。

1 知識圖譜研究現(xiàn)狀

知識圖譜的研究主要有兩種類型[2]:以文獻計量為主的科學知識圖譜(MKD)和以Google 知識圖譜為代表的KG。

1.1 MKD 研究現(xiàn)狀

MKD 是一種融合數(shù)學、信息科學、計算機圖形學等多學科理論和技術進行科技文獻計量和分析的可視化研究方法,可運用圖譜展示學科知識分布、發(fā)展趨勢和研究熱點等[8]。MKD 從最初的文獻計量學及情報學迅速擴展到其他學科,在社會科學、自然科學領域有著越來越廣泛的應用[9]。研究表明,MKD 既可以通過縱向比較來分析學科領域不同子領域的相互關系和演化歷程;也可以通過橫向比較來分析學科領域的研究熱點和發(fā)展趨勢[5]。劉則淵等[10]研究指出,德萊克斯大學、布魯內(nèi)爾大學、圣蒂亞國家實驗室、伊拉茲馬斯大學等是國外MKD 較有影響力的研究機構。值得一提的是德萊克斯大學的陳超美教授,其開發(fā)的知識圖譜分析軟件CiteSpace[11-12]已被廣泛應用。湯建民等[13]認為,大連理工大學、武漢大學、中國科學院、浙江樹人大學、南京大學等機構在MKD 研究方面表現(xiàn)突出,其中,大連理工大學[4]最早從科學計量學的視角引進科學知識圖譜方法,極大地推動了國內(nèi)MKD 的研究和發(fā)展[13]。

1.2 KG 研究現(xiàn)狀

KG 自2012 年由Google 提出以來,迅速成為人工智能的研究熱點,并涌現(xiàn)出一大批令人矚目的成果。如YAGO[14]、NELL[15]、DBpedia[16]、Freebase[17]、Knowledge Vault[18]、Zhishi.me[19]、XLore[20]、OpenKG.CN[21]等。

KG 是一個多關系圖,其結點表示實體或概念,連接結點的邊表示實體與概念之間的關系。因此,構建KG 的關鍵是實體抽取和關系抽取。目前,大量的知識圖譜研究是利用網(wǎng)絡資源尤其是Wiki 類資源和鏈接開放數(shù)據(jù)(linked open data, LOD)實現(xiàn)實體抽取和關系抽取。 ABHISHEK 等[22]基于Wikipedia 實現(xiàn)了社交媒體的實體抽取、鏈接、分類及標注。DESHPANDE 等[23]利用Wikipedia 進行知識概念、實體及關系的抽取。DONG 等[18]構建了網(wǎng)絡級的概率知識庫knowledge vault,其實現(xiàn)方法是融合網(wǎng)頁文本、表格數(shù)據(jù)、網(wǎng)頁結構和人工標注信息。中文通用知識圖譜Zhishi.me 是通過從百度百科、互動百科、維基百科等開放百科數(shù)據(jù)中抽取結構化數(shù)據(jù)后進行知識融合實現(xiàn)的;WANG 等[20]構建的跨語言知識圖譜XLore 是基于百度百科、互動百科和中英文維基百科實現(xiàn)的;XU 等[24]研究了維基百科中實體間缺失語義關系的發(fā)現(xiàn)算法;WANG 等[25]基于跨語言知識庫,實現(xiàn)了知識圖譜的擴展;LIN 等[26]提出了一種新的KG 構建模型TransR,分別在實體空間和關系空間進行實體的學習和關系的建立;復旦大學研發(fā)的CN-DBpedia[27]開放百科中文知識圖譜,涵蓋數(shù)千萬實體和數(shù)億級的關系,相關知識服務API 累計調(diào)用量已達6 億次。清華大學和微軟在KDD 上 聯(lián) 合 發(fā) 布 的Open Academic Graph[28],包 含Microsoft Academic Graph (MAG)的1.6 億篇論文和AMiner[29]的1.55 億篇論文,生成了2 個學術圖譜的6 463 萬個鏈接關系。中國科學院自動化所研發(fā)的Belief Engine[30]是一個中英文雙語的跨領域知識圖譜,在百度、互動、維基百科的陳述性知識基礎上通過概念化產(chǎn)生概念層面的常識性知識,并為每一條常識性知識賦予一個信念值(belief value)。北京大學中文百科知識圖譜PKU-PIE[31]是從維基百科、DBpedia、百度百科等處自動收集而成的知識庫,有自己的類別體系和謂詞體系,并且和DBpedia 等常用的知識庫進行關聯(lián)。

1.3 MKD 與KG 的 區(qū) 別 和 聯(lián) 系

馮新翎等[32]從理論淵源、知識管理視角、適用研究領域等方面研究了MKD 和KG 的區(qū)別和聯(lián)系,指出,MKD 和KG 都屬于知識管理范疇,在知識管理過程中不同階段扮演不同角色,完成各自功能。兩者之間既有區(qū)別又緊密聯(lián)系,在知識創(chuàng)新方面的融合和發(fā)展將帶來知識管理領域科學范式的變革。MKD 和KG 都是以圖為基礎構建的網(wǎng)絡模型,在網(wǎng)絡分析的基礎上服務于知識管理,所有網(wǎng)絡分析的理論和方法都可應用于MKD 和KG 知識圖譜的分析。大數(shù)據(jù)時代,MKD 和KG 可相互借鑒、相互促進,通過融合可以完成特定領域的知識圖譜構建。一方面,MKD 可以集成機器學習中的聚類和關聯(lián)挖掘等方法,提高算法和工具分析性能;另一方面,KG 可以借鑒MKD 中的可視化算法和工具展現(xiàn)大規(guī)模語義網(wǎng)絡,清晰顯示海量知識實體之間的復雜關系。

2 甲骨學知識圖譜構建

甲骨學知識圖譜的構建基于海量的多源異構甲骨文研究數(shù)據(jù),通過融合MKD 和KG 兩類知識圖譜實現(xiàn)。其中MKD 以甲骨學文獻為主要數(shù)據(jù)來源,KG 以甲骨文文本、語料庫和數(shù)據(jù)庫為主要數(shù)據(jù)來源。甲骨學知識圖譜的構建流程如圖2 所示。

圖2 甲骨學知識圖譜構建框架Fig.2 The construction framework of OBS knowledge graph

由圖2 可知,構建甲骨學知識圖譜的數(shù)據(jù)源包括甲骨文文獻、數(shù)據(jù)庫、文本、語料庫等。首先,基于甲骨文文獻,利用MKD 表示甲骨學知識關聯(lián)、知識演化及知識群結構。同時,MKD 可作為一種新生成的數(shù)據(jù)來源,利用共引、共詞、聚類分析等方法從MKD 中提取實體(如研究機構、學者、地點、人物、事件等)和實體之間的關系(如合作、被引、共現(xiàn)、為…提供依據(jù)、主題、分期、類組、材質(zhì)、祭祀對象、繼承等)。

甲骨文本體可為知識圖譜提供概念模型和邏輯基礎。基于已構建的甲骨文文獻本體、甲骨文內(nèi)容本體和甲骨文常識本體3 個本體[33],可以實現(xiàn)實體抽取和關系抽取。其中,甲骨文文獻本體是依據(jù)甲骨文研究論文及專著建立的資源本體;甲骨文內(nèi)容本體是描述經(jīng)甲骨文專家及歷史學家考釋得到,描述了商代社會的家庭關系、生活、農(nóng)作、天氣、戰(zhàn)爭、狩獵等事件及其相互關系;甲骨文常識本體描述的是甲骨文的基本知識,如甲骨文的材料選擇、占卜祭祀過程,以及甲骨文的發(fā)現(xiàn)歷史、專家名錄、考古記錄、文字特征、語法知識等。

分別從MKD 和甲骨學數(shù)據(jù)源獲取實體和關系后,需要將兩者進行融合,構建MKD-KG 融合圖譜。融合時考慮實體對齊和關系融合,而且本體有助于實現(xiàn)實體對齊和關系融合。同時,利用本體的語義關系和本體推理,可發(fā)現(xiàn)潛在的實體和隱含的語義關系,從而擴展和豐富MKD-KG 融合圖譜。由于甲骨學領域?qū)I(yè)程度高,因此,需要在甲骨文專家的指導下書寫相應的規(guī)則,實現(xiàn)基于規(guī)則的知識推理。

2.1 甲骨學MKD 構建

MKD 構建方法較多,有共引分析法、共詞分析法、聚類分析法、社會網(wǎng)絡分析法,以及融合了其他文獻特征的綜合分析方法等[5]。其中,共詞分析方法是通過分析同一個文本主體中的關鍵詞,由其共同出現(xiàn)的形式來挖掘?qū)W科領域中主題間的關系,從而分析該領域的學科發(fā)展[34]。詞作為知識繼承與發(fā)展的最小功能單元,有利于明確分析知識之間的關聯(lián)關系[5]。因此,本文選擇共詞分析法描述知識之間的聯(lián)系。

共詞分析,即分析詞和詞之間的知識關聯(lián)。由于詞代表著領域的知識概念,相較共引分析方法,共詞分析更有利于揭示領域微觀知識之間的聯(lián)系。共詞分析的功能大致分為[5]:從學科內(nèi)部角度看,可以區(qū)分學科子領域,確定學科知識結構;從學科之間角度看,可以揭示研究主題之間的關聯(lián)、特點和差異;從時間維度看,可以揭示學科領域中,不同子領域的研究發(fā)展、演化規(guī)律和相互作用關系;從橫向的主題比較角度看,可以揭示學科研究主題與研究熱點的接近程度,從而對知識發(fā)展趨勢進行合理預測。

本文選擇Cosine 函數(shù)法作為共詞關系計算方法。設存在關鍵詞Di=(d1i,d2i,…,dni)T和Dj=(d1j,,d2j,,…,dnj)T,則Di,Dj的Cosine 函 數(shù) 計 算 公式為

以CNKI 為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1927 年5 月至2019 年1 月的文獻,共篩選到5 971 篇。由于文獻的標題、關鍵詞和摘要已經(jīng)能反映甲骨文知識的大部分內(nèi)容,因此,構建過程中,只取文獻的標題、關鍵詞和摘要進行共詞分析。利用CiteSpace 工具,采用余弦函數(shù)進行共詞分析,得到的甲骨學MKD 圖譜片段如圖3 所示。

圖3 甲骨學MKD 片段Fig.3 The fragment of OBS MKD

從圖3 中可看出,甲骨學MKD 可以顯示其知識結構及其分布。節(jié)點類型涵蓋了人物、機構、時間、事件等實體,節(jié)點和字體的相對大小體現(xiàn)了詞頻,連線表明了知識節(jié)點之間的關系,顏色對應文獻發(fā)表年份。圖3 顯示結果存在的最大問題是未考慮語義關系對實體的優(yōu)化,如“高端論壇”“字符”“字頻”等對甲骨文知識的意義不大,應該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關系則沒有體現(xiàn)??梢?,單用MKD 無法較好地表示甲骨學知識體系。

2.2 甲骨學KG 構建

構建甲骨學KG 的關鍵是實體發(fā)現(xiàn)和關系抽取。甲骨學基礎數(shù)據(jù)是多源異構的,這些數(shù)據(jù)中存在各種各樣的實體,由圖2 所示的甲骨學知識圖譜構建框架可知,實體可以從甲骨學MKD、甲骨學數(shù)據(jù)庫、甲骨文文本、甲骨學圖文資料庫等多源數(shù)據(jù)集中獲取。而且,甲骨文本體中已經(jīng)創(chuàng)建了大量較高質(zhì)量的實例,這些實例可以直接作為甲骨學知識圖譜中的實體。

2.2.1 基于甲骨學MKD 的實體發(fā)現(xiàn)與關系抽取

利用CiteSpace 構建了甲骨學MKD,其存儲格式為*.graphml 文件,通過該文件中的〈node〉標記可以直接獲取實體,文件中的〈edge〉標記可以直接獲取實體及實體間的關系。在圖3 所示的甲骨學MKD 中,〈node〉及〈edge〉對應的節(jié)點及關系如圖4 所示。

圖4 基于MKD 的實體和關系抽取Fig.4 Entity and relation extraction based on MKD

2.2.2 基于甲骨學數(shù)據(jù)庫的實體發(fā)現(xiàn)與關系抽取

甲骨學研究過程中建立了多種類型的數(shù)據(jù)庫,如甲骨文詞典數(shù)據(jù)庫、甲骨文著錄數(shù)據(jù)庫、甲骨文文獻數(shù)據(jù)庫、甲骨語法庫等。實際上,在構建數(shù)據(jù)庫時就已經(jīng)對數(shù)據(jù)對象進行了分析和設計,并定義了數(shù)據(jù)庫模式。

定義1數(shù)據(jù)庫的關系模式可以定義為一個五元 組R(U, D, DOM, F)[35],其 中R 為 關 系 名,U 為組成該關系的屬性名集合,D 為U 中屬性來自的域,DOM 為屬性向域的映像集合,F(xiàn) 為屬性間數(shù)據(jù)的依賴關系集合。

定義2本體可定義為一個五元組O = {C,A, R, I, Ao}[36],其 中C 是 概 念 集 合,A 是 屬 性 集 合,R 表示概念間的相互關系,I 是實例集合,Ao是利用某種邏輯語言表示的公理集合。

由定義1 和定義2 知,數(shù)據(jù)庫模式已成為本體開發(fā)中知識獲取的重要方法。數(shù)據(jù)庫模式中的關系、關系屬性、屬性的原子數(shù)據(jù)類型、屬性約束、主鍵/外鍵等為本體構建提供了概念或類及其關系的描述[37]。所以,基于數(shù)據(jù)庫可以實現(xiàn)實體發(fā)現(xiàn)和關系抽取。本文采用直接映射的方法,將關系數(shù)據(jù)庫的表結構和數(shù)據(jù)轉化為RDF 形式,具體操作如圖5所示。

圖5 數(shù)據(jù)庫到RDF 的映射Fig.5 DB2RDF mapping

基于圖5 的映射思路,以甲骨文著錄數(shù)據(jù)庫為例,獲取的實體和關系如圖6 所示。

圖6 基于數(shù)據(jù)庫的實體和關系抽取Fig.6 Entity and relation extraction based on database

圖6 中,綠色節(jié)點表示甲骨文專家(若有專家頭像,則以頭像方式顯示),藍色節(jié)點表示甲骨文著錄,粉色節(jié)點表示出版機構,節(jié)點之間的連線表示關系。可以看出,該圖譜可以完整地展示著錄數(shù)據(jù)庫所描述的信息。通過數(shù)據(jù)庫模式,可得到實體和實體之間的關系,如〈專家,編纂,著錄〉〈研究機構,編纂,著錄〉〈出版社,出版,著錄〉〈專家,合作,專家〉等。而且,相較針對關聯(lián)關系復雜的查詢,基于知識圖譜的查詢效率要遠高于關系數(shù)據(jù)庫查詢。

2.2.3 基于文本的實體發(fā)現(xiàn)與關系抽取

這里的甲骨文文本是指除甲骨文文獻、甲骨文語料庫之外的涉及甲骨文知識的文本,如網(wǎng)頁文本、電子版筆記等。從這些非結構化文本中抽取關系具有極大的挑戰(zhàn)性。目前,基于深度學習的實體關系抽取技術超過了傳統(tǒng)的基于特征和核函數(shù)的方法[38],并涌現(xiàn)出一批重要成果。如基于遞歸神經(jīng)網(wǎng)絡的關系抽取[39]、基于卷積神經(jīng)網(wǎng)絡的關系抽取[40-42]、基于端到端神經(jīng)網(wǎng)絡的關系抽取[43]、基于注意力機制的關系抽取[44-45]、弱監(jiān)督殘差網(wǎng)絡關系抽取[46]等。但是,目前甲骨學研究尚需強依賴于專家知識,且缺乏可行的標注語料或數(shù)據(jù)集,深度學習的優(yōu)勢無法凸顯。因此,利用依存句法分析結合甲骨學領域知識實現(xiàn)基于文本的實體發(fā)現(xiàn)和關系抽取,并采用哈工大社會計算與信息檢索研究中心研制的語言技術平臺(LTP[47])作為依存句法分析工具,將依存句法分析與甲骨學領域知識相結合,抽取出三元組。例如,由文本“對商代甲骨的分期斷代研究,有多種說法,如今主要采用的是董作賓依據(jù)世系、稱謂、貞人等十項標準劃分的五期說,即第一期:盤庚、小辛、小乙、武丁,第二期:祖庚、祖甲,第三期:廩辛、康丁,第四期:武乙、文丁,第五期:帝乙、帝辛?!钡玫降囊来婢浞淦渭俺槿〉膶嶓w和關系如圖7所示。

圖7 基于依存句法和領域知識的實體和關系抽取Fig.7 Entity and relation extraction based on dependency syntax and domain knowledge

2.2.4 基于語料庫的實體發(fā)現(xiàn)與關系抽取

甲骨學的研究對象以甲骨文為主,因此分析甲骨文語料庫相關元素之間的關系顯得尤為重要。本文從甲骨文的研究需求角度進行分析,基于甲骨文語料庫實現(xiàn)甲骨學KG 的實體發(fā)現(xiàn)與關系抽取。

甲骨學研究的基本要求是釋讀甲骨片,因此,甲骨學著錄是第一手資料。甲骨片的著錄形式一般有照片、拓片、摹本,其中以甲骨拓片為主要形式,而且,同一張甲骨片可能會在不同的著錄中收錄,其收錄編號也不一致。所以,明確某一張拓片出自何種著錄至關重要。于是,甲骨片與著錄之間的關系可以表示為〈甲骨片,收錄于,著錄〉,見圖8(a)。

構建甲骨字網(wǎng)絡可以為甲骨學中的語義挖掘及考釋線索找尋提供有益的幫助,因此,需要將甲骨片上的單個甲骨字分離出來,從而獲得甲骨字和甲骨片的關系,表示為〈甲骨字,出現(xiàn)于,甲骨片〉。見圖8(b)。

異體字多是甲骨文的一個突出的特點。異體字對甲骨文字識別、考釋、分期斷代、字庫建設、圖像檢索、數(shù)字化出版等有較大影響。從眾多的異體字中找出一個代表字(作為“字頭”)可以方便后續(xù)的甲骨學研究。因此,甲骨字之間存在異體字關系,表示為〈甲骨字(字頭),異體字,甲骨字〉,見圖8(c)。

可見,甲骨字(字頭)與甲骨字之間存在異體字關系,而該關系指向的甲骨字節(jié)點又是截取自某一甲骨片,因此,該甲骨字與甲骨片間必然存在“出現(xiàn)于”關系。多方結合可得到“甲骨字-甲骨片-著錄綜合圖譜”,見圖8(d)。

圖8 基于語料庫的實體和關系抽取Fig.8 Entity and relation extraction based on corpus

從8(d)中可以看出,同一片甲骨上某個甲骨字可能以異體字形式出現(xiàn)多次,這也體現(xiàn)了甲骨文異體字繁多、出現(xiàn)頻率高的特點。因此,知識圖譜可以很好地表示甲骨學領域知識。

基于語料庫進行實體和關系抽取的一個關鍵問題是如何從海量的甲骨圖片中自動檢測出甲骨字。筆者利用深度學習方法,基于9 500 張定位標注的甲骨片,參考YOLOv3 方法實現(xiàn)了甲骨片上甲骨字的自動檢測,其準確率、召回率和F 值分別為77.6%,78.4%,78%,檢測效果如圖9 所示。

圖9 甲骨字的自動檢測Fig.9 Automatic detection of OBI characters

2.3 MKD 和KG 知 識 圖 譜 融 合

構建甲骨學MKD 和KG 時,分別從異構數(shù)據(jù)源中獲取了大量實體和關系,將這兩種知識圖譜進行融合,需要考慮實體對齊和關系融合兩個關鍵問題。

2.3.1 實體對齊

實體對齊也稱為實體匹配或?qū)嶓w解析,是判斷相同或不同數(shù)據(jù)集中的兩個實體是否指向真實世界同一對象的過程[48]。甲骨學中存在各類等價實體。如“文武丁”和“文丁”指的是同一位商王;“艾蘭”和“Sarah Allan”指的是同一學者;當某一甲骨片被收錄進不同的著錄時,其甲骨片編號往往是不同的,如《甲骨文合集補編》中第b00008 片與《東京大學東洋文化研究所藏甲骨文字》中第d00123 片是同一片甲骨;“Oracle Bone Collections in the United States”與“美國所藏甲骨錄”指的是同一著錄。

由于甲骨學的專業(yè)性很強,甲骨學知識圖譜中等價實體大部分需要利用甲骨學知識進行判定。如果實體對〈e1,e2〉在甲骨文文本中被記錄為“=”(如圖10(a)所示[49]),或在數(shù)據(jù)庫中有相應字段(如圖10(b)所示),或在本體中標記為“isSame”關系(如圖10(c)所示),則這些實體對在相同或不同數(shù)據(jù)集中出現(xiàn)時,直接判定為等價實體。

對無法直接判定為等價實體的,需要通過實體相似度計算來判定。本文采用文獻[50]的方法,通過綜合HowNet 與同義詞詞林的詞語語義相似度計算方法實現(xiàn)等價實體的判定。針對甲骨學領域的專業(yè)知識,還需要基于“甲骨文知網(wǎng)(OBIHowNet)[33]”進行語義相似度計算。

圖10 各類數(shù)據(jù)源中的等價實體Fig.10 Equivalent entities in various data sources

2.3.2 關系融合

關系融合的關鍵在于確定兩個實體是否表達同一種關系,是否是包含關系等[51]。甲骨學知識圖譜的關系融合主要考慮等價類關系和subClassOf 關系。關系融合示例如表1 所示。

同時,也要優(yōu)化投入要素的比例,根據(jù)城市的具體狀況、旅游資源、適當?shù)恼{(diào)整資金、勞動力、基礎建設、交通建設等要素的投入比例,進而實現(xiàn)城市旅游的高效發(fā)展、協(xié)調(diào)發(fā)展以及可持續(xù)發(fā)展。

表1 關系融合示例Table 1 Examples of relation fusion

經(jīng)過實體對齊和關系融合后,得到的甲骨學融合知識圖譜如圖11 所示。該融合知識圖譜包括甲骨文專家學者、著錄、研究機構、出版機構、甲骨片、甲骨字、甲骨文常識等知識實體和關聯(lián)關系。

3 基于知識推理的甲骨學知識圖譜擴展

將MKD 和KG 兩類知識圖譜進行融合得到的MKD-KG 融合圖譜包含大量實體和關系,已經(jīng)構成一個龐大的知識網(wǎng)絡。但這些實體和關系均是從各種知識源中直接獲取的顯式元素,無法較好地滿足甲骨學研究的知識推理需求。因此,挖掘顯式的實體和關系背后隱藏的潛在實體和關系,對甲骨學知識圖譜進行擴展是一項重要工作。本文從本體推理和規(guī)則推理兩方面實現(xiàn)隱含語義關系的挖掘,從而豐富甲骨學知識圖譜。

圖11 甲骨學MKD-KG 融合圖譜Fig.11 OBS fusion knowledge graph based on MKD and KG

3.1 基于本體的推理

利用甲骨文本體中已定義的關系(既有kindof,instance-of,property-of,part-of,equivalence 等通用關系,也有甲骨學領域涉及的商王世系、占卜事件、地理位置、時間空間等復雜的語義關系)和公理進行推理,還可充分利用關系的傳遞性、自反性等進行推理[2]。基于本體關系的推理可參見文獻[52]。將本體關系與甲骨學MKD 共詞關系進行融合,可發(fā)現(xiàn)新的實體和關系,相關內(nèi)容可參見文獻[2]。

3.2 基于規(guī)則的推理

基于規(guī)則的推理需要在甲骨文專家的指導下書寫相應的規(guī)則來彌補本體無法直接完成的推理,如甲骨學領域涉及的因果關系、甲骨字考釋、甲骨文分期斷代、殘辭擬補等?,F(xiàn)以一則簡單示例說明基于規(guī)則的推理。

定義以下2 條規(guī)則:

規(guī)則1貞人為商王占卜(用divinateFor 表示占卜關系),因此是商王的臣子(用serveFor 表示臣子關系)。

上述規(guī)則形式化表示為:

Rule1:OBI:serveFor(X,Y) :- OBI:divinateFor(X,Y)。

Rule2:OBI:colleague(X,Z) :- OBI:serveFor(X,Y), OBI:serveFor(Z,Y)。

假設存在3 條事實:“內(nèi)”是商王“武丁”的貞人;“師般”是商王“武丁”的近臣;“禽”是商王“武丁”的大將?;谏鲜鲆?guī)則可以推理出更多的事實,如“內(nèi)”與“師般”“禽”是同僚關系等。其推理前后統(tǒng)計對比如圖12 所示。

圖12 推理前后統(tǒng)計對比Fig.12 Comparison of rule-based knowledge reasoning

推理前后的關系對比如圖13 所示(圖中去除了節(jié)點的自身關聯(lián),即只保留圖12 中所述的有效邊)。

圖13 推理前后的關系對比Fig.13 The relation comparison before and after knowledge reasoning

經(jīng)過知識推理獲取的隱含的語義關系以及新發(fā)現(xiàn)的實體,可以擴充和豐富MKD-KG 融合圖譜,從而形成最終的甲骨學知識圖譜。目前構建的甲骨學知識圖譜規(guī)模包含實體148 305 個,關系434 032條,可滿足甲骨學研究的基本要求。

4 實驗及分析

為驗證上述實體及關系抽取方法,筆者進行了相關實驗。實驗分別針對各類甲骨文數(shù)據(jù)源,采取準確率(precision)、召回率(recall)、F 值(f-measure)進行評價。由于缺乏甲骨文領域的評價數(shù)據(jù)集,因此,實體抽取及關系抽取的正確性由人工確定,實驗結果如表2 所示。

表2 中,基于甲骨語料的關系抽取達到最高評價值,其原因是在該關系抽取過程中必須依賴甲骨文專家人工干預,如異體字的識別與歸類、異體字與字頭的關系等。實驗分析如下:

(1)關系抽取的難度大于實體抽取;

(2)基于結構化數(shù)據(jù)的實體抽取和關系抽取質(zhì)量明顯高于非結構化數(shù)據(jù);

(3)基于文本的甲骨文實體抽取和關系抽取依賴于依存句法的分析質(zhì)量。因此,有必要開展針對甲骨文領域的依存句法分析的專門研究;

(4)甲骨文字的檢測與識別效果直接影響甲骨語料的信息抽取質(zhì)量。

表2 實驗結果Table 2 The experimental results

5 結 論

甲骨學知識圖譜是由MKD 和KG 兩類圖譜融合而成的。在分別介紹甲骨學MKD 和甲骨學KG的構建方法基礎上,通過實體對齊、關系融合和知識推理得到最終的甲骨學知識圖譜。盡管目前構建的甲骨學知識圖譜已初具規(guī)模,但仍面臨一些問題。如甲骨學MKD 是基于文獻元數(shù)據(jù)信息構建的,并沒有考慮文獻全文,因此,文本中的大量實體和關系并沒有抽取出來;甲骨學文獻中存在較多圖文混編情況,目前還無法實現(xiàn)甲骨字的有效圖像檢索;甲骨學文獻還存在大量的手寫版本,對這些手寫文獻尚缺乏準確率高的識別方法。這些均影響實體的抽取和關系的挖掘。針對甲骨學KG,目前僅關注與甲骨文字有關的知識實體和實體關系,尚未對金文、戰(zhàn)國文字、簡帛文字等相關古文字進行較大規(guī)模的知識圖譜構建;另外,甲骨文考古知識和甲骨文綴合方面的知識也未系統(tǒng)加入目前的知識圖譜中;甲骨文依存句法分析工作也有待研究。下一步,將針對這些問題進行更加深入的研究。

猜你喜歡
甲骨甲骨文本體
字溯甲骨?文承龍韻
眼睛是“本體”
釋甲骨文“朕”字的一種異體寫法
一種基于社會選擇的本體聚類與合并機制
一百二十年來甲骨文材料的初步統(tǒng)計
甲骨文中的字形直立化二則
說甲骨新綴所見的“南孟”與“奠子方”
甲骨釋字四則
刻在甲骨上的愛情
甲骨文與商代文字