張 琪,王東波,黃水清,鄧三鴻
(1.南京大學(xué)信息管理學(xué)院,南京 210023;2.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095;3.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室,南京 210023)
浩如煙海的史籍承載著我國悠久的歷史文化。在古籍保護與利用引起廣泛重視的背景下,盡管史籍電子化已經(jīng)取得了大規(guī)模的成果,但是目前大眾化利用程度仍然較低。
從信息獲取的角度來看。一方面,艱澀的古漢語文法、深厚的歷史文化背景為閱讀史書原文設(shè)立了門檻;另一方面,史書體裁自身維度的單一性筑起了從時間、地點、人物等多種維度出發(fā)獲取信息的壁壘。例如,編年體史書以時間為主線展開,便于以時間為索引定位所需信息,卻難以從中獲取某一人物或某一地點的全部史料。而在紀傳體、紀事本末體史書中,因采用帝王年號、王公即位等中國古代紀年法,時間描述的歧義、共指、省略、模糊等特性,使得查找某一時間點的歷史事件非常困難。
首先,盡管目前史籍電子化已經(jīng)取得了大規(guī)模的成果,但是大部分古籍知識庫僅支持瀏覽和字符串檢索,利用方式處于比較原始的紙質(zhì)替代狀態(tài)[1]。而上述問題的解決需要完成史籍知識重組與形式再造,支持從時間、人物、地點等多個維度出發(fā),查詢并以圖結(jié)構(gòu)的方式展示承載于史書之中的結(jié)構(gòu)化知識及對應(yīng)原文,從而易于被人們理解[2],便于語義計算的展開。然而,目前的相關(guān)研究多在知識來源與可視化呈現(xiàn)方面與史書原文相割裂,不利于拉近讀者與經(jīng)典史籍之間的距離。其次,盡管有研究從史書原文中獲取結(jié)構(gòu)化知識,但從所采用的方法來看,大部分研究通過人工標注或正則匹配的方法獲取語義知識。盡管有部分研究探討了自動獲取方法,但復(fù)雜的本體建模在現(xiàn)有的技術(shù)條件下難以實現(xiàn)高質(zhì)量自動填充,而簡單的三元組抽取則容易丟失歷史事件的時間等重要維度。
綜上分析,目前史籍知識重組與形式再造主要存在以下痛點和難點:(1)知識重組:從史籍原文出發(fā),綜合考慮史書知識表示的充分性與自動抽取的可行性,實現(xiàn)史書多維知識抽取、融合、存儲與知識庫自動構(gòu)建;(2)形式再造:結(jié)構(gòu)化知識與所對應(yīng)的史籍原文相結(jié)合的多維度可視化呈現(xiàn)。本研究圍繞上述問題,試圖基于知識組織、古籍智能處理技術(shù)、可視化等相關(guān)理論、方法和技術(shù)提出并實現(xiàn)史書多維知識重組與可視化系統(tǒng),最后將其應(yīng)用于我國第一部紀傳體史書《史記》中。
史書多維知識自動重組與可視化隸屬于數(shù)字人文的研究范疇,主要涉及史書體裁的演變、歷史領(lǐng)域語義知識庫構(gòu)建以及古籍智能處理三個研究領(lǐng)域。本節(jié)對上述領(lǐng)域的實踐和研究進行回顧,以借鑒已有研究的可取之處并發(fā)現(xiàn)其不足。
在我國歷史上的幾種主要史書體裁中,最早出現(xiàn)的是編年體。編年體史書以時間為主線展開的方式便于展現(xiàn)歷史的動態(tài)變化,同時也存在一定的缺陷[3]。例如,與重大歷史事件密切相關(guān)的人物事跡無法得到描述,無法展現(xiàn)不同時間發(fā)生事件之間的聯(lián)系等。此后,又出現(xiàn)以人物為主線的紀傳體、以國家(諸侯國)為主線的國別體、以地點為主線的地方志、以事件為主線的記事本末體、以典章制度為主線的典制體。然而,每本史書在寫就時只能采用一種體裁,史書內(nèi)容只能就人物、時間、地點、事件等一條主線展開。采用一種體裁,從對歷史記錄的角度而言,難以反映復(fù)雜的歷史進程[4]以及人與社會的復(fù)雜聯(lián)系[5];從信息獲取的角度,則使得讀者難以從其他維度入手獲取相應(yīng)信息。
為了彌補單一史書體裁組織史料的缺陷,史學(xué)家采用豐富支線和人工輔以多維度主線等方式加以改進。司馬遷在紀傳體史書《史記》中引入年表,但年表中只能概述歷年大事,而無法涵蓋本紀、世家、列傳中豐富的歷史知識,并且大部分紀傳體史書中并未包含年表這一體例。東漢史學(xué)家荀悅將“紀傳體的《漢書》刪改成編年體的《漢紀》”[5],但我國史書規(guī)模巨大,難以人工完成對所有史書的重寫。北宋司馬光在編年體史書《資治通鑒》的撰寫中增加與主體事件極為密切的人物事跡,但傳記中的時間與編年體中的人物信息均為支線,盡管多面的歷史知識得以納入史書之中,但多維信息獲取的問題未能得到解決。
不同于史料全文數(shù)據(jù)庫,實體級知識庫的構(gòu)建包含歷史人物、地點、官職、時間、著作等實體以及實體之間的關(guān)系。盡管目前自動從史籍原文中獲取結(jié)構(gòu)化知識的研究較少,但人工構(gòu)建實體級歷史知識庫的研究早在20世紀便已萌芽。研究宋代社會經(jīng)濟史的郝若貝教授從20世紀80年代開始將宋代歷史人物的生卒年、親屬等信息手動錄入計算機,以便自己的研究使用,之后將其捐贈給哈佛燕京學(xué)社,并逐漸演變?yōu)橹袊鴼v代人物傳記資料庫(China Biographical Database,CBDB)[6-7]。CBDB搜集了公元7世紀至19世紀將近40萬個歷史人物的傳記資料,包含人物姓名、地址、官職、著作、親屬關(guān)系和社會關(guān)系等歷史人物信息[5],目前主要知識來源是歷史人物資料索引。歷史知識APP“全歷史”[8]提供關(guān)系圖譜展示實體之間的關(guān)系,其知識主要來源是百科及用戶人工補充。武漢大學(xué)董慧等[9]從文獻語義分析的角度出發(fā)設(shè)計了一個史籍語義分析系統(tǒng),該系統(tǒng)主要采取人工標注的方式獲取實體間關(guān)系。
古文智能處理是指對數(shù)字化后的古籍原文進行自動斷句、詞匯處理、語義和句法標注,自動獲取史書中的結(jié)構(gòu)化知識并實現(xiàn)知識融合,主要涉及語義三元組抽取、實體消歧以及共指消解,其受到斷句、詞匯處理及句法分析等前序任務(wù)效果的影響。目前,古漢語領(lǐng)域的自動斷句以及分詞、詞性標注、實體識別等詞法分析經(jīng)過近十年的研究已經(jīng)取得了較好的效果[10],MARKUS[11]等古籍實體半自動標記及自動標記平臺已較為成熟。古漢語自動句法分析方面,馮秋香等[12]從自然語言處理的角度出發(fā)梳理了《左傳》中的句法結(jié)構(gòu),基于Perl構(gòu)建的句法分析器的召回率達到88.8%,但語料覆蓋范圍較小,目前仍沒有公開可用的古漢語句法分析器。
從英語、現(xiàn)代漢語語義三元組抽取的相關(guān)研究來看,基于機器學(xué)習(xí)的抽取系統(tǒng)效果受句法特征的影響較大[13],因此,古漢語領(lǐng)域語義三元組的抽取也在初期受到一定限制。陳雅玲[14]采用基于觸發(fā)詞匹配的方法獲取實體關(guān)系類型,在此基礎(chǔ)上基于條件隨機場模型獲得實體對,但古漢語言簡意賅的特點導(dǎo)致實體關(guān)系類型識別的召回率較低。
實體鏈接包括實體消歧和指代消解,是結(jié)構(gòu)化數(shù)據(jù)三元組知識互聯(lián)的前提,古漢語方面,于麗麗等[15]探究了基于條件隨機場的古漢語詞義消歧。
結(jié)合敘事維度回顧中國歷史上的主要史書體裁,可知古代史學(xué)家從時間、人物、事件、典制、地點等不同維度出發(fā),確定了編年體、紀傳體、國別體、紀事本末體、典制體、地方志等史書體裁,并采用引入支線、輔以主線、體裁改寫等方式解決單一體裁難以反映復(fù)雜社會生活的問題。然而,引入支線不利于讀者集中獲取相關(guān)信息。在史書中增加以其他維度為主線的體例,如在紀傳體史書中引入年表可以較為有效地緩解信息獲取問題,但這種方式在史書中較為少見。而人工構(gòu)建或人工體裁改寫較為困難,并且鑒于我國史書數(shù)量之多,難以人工完成對所有史書的處理。
從增強讀者與史書原文關(guān)聯(lián)的角度來看,已有的歷史領(lǐng)域語義知識庫的構(gòu)建存在以下問題:首先,從知識來源來看,已有歷史領(lǐng)域知識庫主要從索引、百科而非史書原文中獲取具體實例,因此一定程度上與史書原文相割裂,無法起到拉近普通讀者與史籍原文的作用;其次,從基于史書原文的知識抽取方法來看,一方面,目前具體知識實例、尤其是實體之間的語義關(guān)系主要來自人工標注,難以向大規(guī)模史書擴展;另一方面,目前自動化抽取方面主要限于三元組知識,人物關(guān)系等隨時間的動態(tài)變化無法得以體現(xiàn);最后,知識庫可視化層面,已有研究或?qū)嵺`均將重點置于對結(jié)構(gòu)化知識的展示,割裂了與史書原文之間的關(guān)聯(lián),難以拉近讀者與史書原文之間的距離。
基于上述分析,本研究從史書原文出發(fā),提出并實現(xiàn)史書多維知識重組與可視化系統(tǒng),引入古籍智能處理領(lǐng)域的相關(guān)技術(shù)與方法,在考慮知識動態(tài)變化的基礎(chǔ)上,從史書體裁所涉及的人物、時間、地點、典制等不同維度入手重組史書知識并完成可視化,以期緩解由艱澀的古漢語文法以及史書線性的展開方式所帶來的信息獲取問題。
本研究從滿足史書信息獲取的需求出發(fā),提出史書多維知識重組與可視化系統(tǒng)框架。系統(tǒng)框架如圖1所示,主要包括史書多維知識建模、史書多維知識庫構(gòu)建以及史書多維知識可視化三部分。
圖1 史書多維知識重組與可視化系統(tǒng)框架
系統(tǒng)各部分承擔(dān)著不同的作用?;诓煌窌w裁所采用的主線如時間、人物、地點等不同維度展開史書知識建模是史書知識重組的前提和基礎(chǔ);基于古籍智能處理技術(shù)的多維知識庫構(gòu)建是史書多維知識重組實現(xiàn)自動化及規(guī)?;那疤?,其中,歷史事件時間軸自動生成是使紀傳體、國別體、紀事本末體等體裁的史書以時間為主線展開的關(guān)鍵技術(shù),三元組知識抽取是將史書知識以人物、地點、社會集團等維度為中心展開的關(guān)鍵技術(shù),史書知識融合是不同來源的知識相互連接的關(guān)鍵技術(shù),史書知識存儲方式則直接用與知識庫后續(xù)的應(yīng)用場景相關(guān);史書多維知識可視化是同時以多個維度呈現(xiàn)史書歷史知識的關(guān)鍵手段。下文將依次對系統(tǒng)各部分所涉及的主要理論、方法與技術(shù)進行闡述。
知識建模又被稱為本體構(gòu)建或知識體系構(gòu)建,旨在通過定義和描述事物、概念、屬性和關(guān)系對目標領(lǐng)域知識進行合理組織與描述。史書多維知識建模需要從人物、時間、地點多個維度出發(fā)對史書中知識實例及實例之間的語義關(guān)系加以概括性的描述和定義,是史書知識以多個維度展開的基礎(chǔ)。
SPO(subject-predicate-object)知識表示模型與RDF(resource description framework)兼容的同時,能夠統(tǒng)一表示實例型數(shù)據(jù)和描述型數(shù)據(jù),目前DB‐pedia[16]、Zhishi.me[17]等知識圖譜均采用SPO知識表示模型。然而,SPO知識表示模型難以建模復(fù)雜知識。對于史書多維知識建模而言,其無法展現(xiàn)知識的時間信息以及知識來源。時間是信息空間的重要維度,盡管目前已有知識圖譜中以SPO三元組的形式建模人物出生時間、死亡時間等常見的實體與時間之間的關(guān)系,但三元組知識所構(gòu)成的事實(facts)的時間信息被忽略,例如其難以表示人物身份隨時間的變化。
為了彌補SPO在表示現(xiàn)實世界知識方面的缺陷,Hoffart等[18]提出SPO-X知識表示模型,并在YAGO2中將X具體化為TL(time,location),在已存在時間和地點實體用于描述實體存續(xù)時間、固有地點的基礎(chǔ)上,為事實(facts)增加時間和空間維度,從而描述事實的時間、空間變化。
本研究從史書多維知識重組的需求出發(fā),將X具體化為TS(time,source text),保留實體與時間的關(guān)系從而表示實體消亡時間的基礎(chǔ)上,該知識表示模型可以為由SPO三元組組成的事實提供釋明其相關(guān)時間以及所依據(jù)原文的能力。SPO-TS(subject property object-time source text)知識表示模型及具體應(yīng)用示例如圖2所示。
圖2 采用SPO-TS表示史書知識示例
3.1.1 核心概念及其數(shù)據(jù)屬性
本研究在第2.1節(jié)中已經(jīng)列舉了主要的史書體裁以及各種體裁所采用的敘事主線,本研究將編年體、紀傳體、地方志(志書體)、國別體及官制史(典制體)五種史書體裁的主線作為重組史書知識的維度,并對其內(nèi)涵進行一定的縮小或延伸。
(1)人物(people):紀傳體史書以歷史上的重要人物為中心展開,此處的人物包括《史記》中的所有人物,每個人物被分配以唯一的ID,避免知識庫中的人名歧義,其屬性包括主稱謂與別名。
(2)時間(time):編年體史書以時間為主線展開,為使編年體、紀傳體、紀事本末體等不同體裁的史書中的知識內(nèi)容能夠按時間順序排列,須規(guī)范知識內(nèi)容涉及的時間實體屬性,既包含公元紀年,也包含中國古代紀年(包括王公即位紀年、帝王年號紀年)。
(3)地點(places):地方志將地點分門別類繼而展開,地方志中的地點主要根據(jù)行政區(qū)域劃分。本研究中的地點包括《史記》中出現(xiàn)的行政區(qū)域與自然地理,行政區(qū)域如“雍林”“葵丘”等,自然地理如“河”“山”等。
(4)社會集團/團體(groups):國別體按國家(諸侯國)組織史書內(nèi)容,而國家(諸侯國)與家族、學(xué)術(shù)流派屬于不同層面的社會集團,因此將社會集團作為核心實體以滿足更多的信息獲取需求。上古漢語標記語料庫(http://lingcorpus.iis.sinica.edu.tw/ancient/)將其社會集團分為國家、家族和學(xué)術(shù)流派三種,各類別具體示例如表1所示。
表1 《史記》中三種主要的社會集團類型及實例
(5)職官(official/postings):官制史隸屬典制體[19],記載并評述歷史上的職官制度?!妒酚洝分杏涊d了大量的職官名,為歷史學(xué)領(lǐng)域?qū)β毠僦贫鹊难芯刻峁┝素S富的材料。主要包括中央官制、郡縣官制、諸侯國官制、爵祿制度、秩祿、選舉制度等不同的職官制度及所涉及的職官。本研究的目的是從史書原文中提取職官實體及相關(guān)人物、社會集團,之后可引入官制史中對職官職能的描述,從而幫助讀者進一步獲取豐富的背景信息。
3.1.2 核心概念間的關(guān)系
在確定史書知識重組的五個維度,即五個核心概念的基礎(chǔ)上,需要進一步確定五個核心概念之間的關(guān)系。
圖3給出了產(chǎn)生關(guān)系的概念對,具體關(guān)系類型在http://www.shijigraph.com/help中給出。其中,人物與人物、人物與地點、人物與社會集團以及社會集團之間存在較多細分關(guān)系,下文將進一步展開說明。
圖3 具有關(guān)系的概念對
(1)人物-人物:人物與人物之間的關(guān)系包括人物社會關(guān)系和人際態(tài)度傾向。其中,人物社會關(guān)系(social relationships)又分為親屬關(guān)系和非親屬關(guān)系,血緣親屬關(guān)系如父母、子女、兄弟姐妹、祖、孫等不具有時間屬性,而婚戀等非血緣親屬關(guān)系則可能隨時間發(fā)生變化,因此具有時間屬性;非親屬關(guān)系包括上下級、師生、帝位更替等。
發(fā)生交互的歷史人物之間往往呈現(xiàn)出某種態(tài)度傾向,認知心理學(xué)學(xué)者Heider[20]將人對人以及人對事的態(tài)度(attitude)分為積極(positive)與消極(negative)兩種類型。本研究將史書中所描述的人物之間的態(tài)度稱為人物態(tài)度傾向,正向關(guān)系主要包括推薦、欣賞、支持等,負向關(guān)系則體現(xiàn)為批評、彈劾、反對、攻擊等。需要注意的是,人物態(tài)度傾向往往具有動態(tài)性,因此必須結(jié)合時間以及具體語境加以分析。本研究借助SPO-TS知識表示模型,賦予三元組時間屬性呈現(xiàn)人物態(tài)度傾向的動態(tài)變化,并給出具體知識來源進一步對其進行解釋說明,如圖4所示。
(2)人物-地點:本研究所包含的人物與地點之間的關(guān)系類型主要有籍貫、居、轄、逃奔、卒于和其他六種。除籍貫外,人物地理位置的變化往往伴隨著時間的變化。
(3)團體-團體:社會集團之間既存在從屬關(guān)系,也往往具有一定態(tài)度傾向。在Heider[20]提出態(tài)度關(guān)系結(jié)構(gòu)的基礎(chǔ)上,Doreian等[21]將二戰(zhàn)之后各國之間的結(jié)盟與敵對符號化,從而探究國際關(guān)系的變遷。本研究將其引入對先秦時期社會集團間關(guān)系的描述中,并將其命名為團體態(tài)度傾向。其中,積極傾向主要包括國家(諸侯國)間的結(jié)盟、聯(lián)姻等,消極傾向則包括國家間戰(zhàn)爭、競爭、沖突等。團體態(tài)度傾向也具有動態(tài)性,因此同樣受時間信息的約束并由知識來源提供具體情境。
3.1.3 事實屬性
本研究采用上文中所定義的SPO-TS知識表示模型為所有三元組附加原文信息,為部分三元組附加時間信息,具有時間信息的所有三元組關(guān)系類型在鏈接http://www.shijigraph.com/help中給出。
圖4給出了人物態(tài)度傾向隨時間的變化的實例。由此可見,采用SPO-TS知識表示模型,可以結(jié)合時間和原文較為完整地呈現(xiàn)齊桓公小白對管仲的態(tài)度傾向由消極轉(zhuǎn)向積極的過程。
圖4 SPO-TS表示動態(tài)知識示例
3.2.1 多維知識獲取
(1)歷史事件時間軸自動生成:作為記載歷史事件的重要維度,時間識別的準確性和全面性異常重要。首先,除編年體史書外,其余史書的時間信息均散落于文本之中,而中國古代時間表達存在歧義(如“桓公二十七年”)、共指(如“繆公任好元年”和“秦穆公元年”)、省略(“九年……”)、模糊(“昔者”)等特點,為后續(xù)處理帶來了較大困難。其次,若僅從單個句子或段落等粒度抽取時間實體而不進行規(guī)范化處理及事件時間對齊,則將會導(dǎo)致大量具有隱式時間表達式及繼承前文時間信息的句子被忽略。
為此,本研究構(gòu)建了時間維度下的史籍自動重組系統(tǒng),為史書中的事件句分配語義唯一、可計算的統(tǒng)一時間表達式。系統(tǒng)包含兩個模塊:第一個模塊識別史書原文中所包含的時間描述,繼而經(jīng)過時間描述規(guī)范化、時間表達式鏈接實現(xiàn)時間描述的語義解析;第二個模塊識別史書中的事件句,并將事件句關(guān)聯(lián)至經(jīng)過語義解析的時間描述。通過上述兩層語義關(guān)聯(lián),使史書中的事件句獲得無歧義的時間信息。
(2)三元組知識自動抽?。喝M知識抽取又被稱為關(guān)系抽?。╮elation extration),目的在于從非結(jié)構(gòu)化文本中獲取實體對以及實體對之間的語義關(guān)系,獲得的語義三元組根據(jù)中心節(jié)點整合后可獲得多元組知識。三元組知識抽取是文本挖掘和信息抽取的核心任務(wù)[22],是知識圖譜構(gòu)建的關(guān)鍵技術(shù)[23],也是將史書知識以人物、地點為中心展開的關(guān)鍵技術(shù)。從語言的角度來講,古代漢語具有言簡意賅的特點,而記載幾百乃至上千年歷史的史書信息量則更為密集,統(tǒng)計顯示白話文版的《史記》字數(shù)是大約是《史記》原文的1.617倍[24],這一特點也使得古漢語知識自動抽取難度更大。以《史記·吳太伯世家》的第一個句子“吳太伯,太伯弟仲雍,皆周太王之子,而王季歷之兄也”為例,短短25個字中存在6條人物關(guān)系,其中包含父子、兄弟等多種知識類型,且存在實體邊界重疊、無觸發(fā)詞等現(xiàn)象。從技術(shù)角度來講,以往基于SVM(support vec‐tor machines)、核函數(shù)等機器學(xué)習(xí)模型的方法依賴于句法特征,而目前古漢語領(lǐng)域暫時沒有可用的句法分析器。
為此,本研究構(gòu)建了基于深度學(xué)習(xí)模型BERT(bidirectional encoder representations from transform‐ers)的史書三元組抽取系統(tǒng),以句子為單位獲取史書中的三元組知識。首先,人工標注《史記》原文部分篇章以供前期為模型選定及模型訓(xùn)練提供基礎(chǔ),統(tǒng)計發(fā)現(xiàn)古漢語具有單個句子中所含知識類別多、數(shù)量多的特點,并且具有語義關(guān)系的實體對在句子中的距離更近,結(jié)合目前古漢語領(lǐng)域沒有可用句法分析器的現(xiàn)狀,本研究最終采用BERT作為基礎(chǔ)模型,并添加分詞與詞性特征對其進行改進。然后將模型的輸出層通過池化(pooling)轉(zhuǎn)化為句子級特征輸出,并將激活函數(shù)設(shè)置為sigmoid構(gòu)建基于多標簽分類的知識分類模型;將知識類別向量融入模型輸入,并將激活函數(shù)設(shè)置為softmax構(gòu)建基于序列標注的實體對抽取模型,通過分步的方法解決史書三元組知識抽取問題。最終,對系統(tǒng)效果的驗證發(fā)現(xiàn)知識分類模型的F值達到84.80%,論元角色抽取模型的F值達到75.50%,這說明系統(tǒng)達到了較好的抽取效果。
3.2.2 知識融合
知識融合是指將不同來源、不同語言、不同結(jié)構(gòu)的知識進行融合。對于本研究而言,主要包括實體融合(實體消歧和共指消解)和SPO-TS實例融合兩部分。
實體層面的知識融合包含實體消歧與共指消解,本研究的解決方法如下:首先,構(gòu)建了同名詞典與別名詞典,本研究從課題組前期已經(jīng)實現(xiàn)電子化的《漢學(xué)引得叢刊》中獲取了其中所包含的別名與同名信息,并結(jié)合自動構(gòu)建的方法進行補充,從而構(gòu)建了實體歧義詞典與實體別名詞典。例如,通過拆分“齊桓公小白”與“齊桓公午”可知,“桓公”“齊桓公”兩種稱謂均存在歧義;而齊桓公小白具有別名“桓公”“齊桓公”“小白”“桓公小白”。在此基礎(chǔ)上,通過歧義詞典確定抽取自原文的實體是否具有歧義。對于存在歧義的實體,結(jié)合上下文信息將其指向?qū)嶓w主稱謂;若不存在歧義,則通過別名詞典判斷其是否具有別名,并映射至唯一主稱謂。
SPO-TS知識實例層面的融合則主要涉及合并與去重,具體解決方法如下:若三元組部分與發(fā)生時間均相同,則三元組部分合并同時保留所有知識來源;若實體對及知識類型相同但發(fā)生時間不同,則視為不同的知識分別存儲。
3.2.3 知識存儲
知識存儲主要有基于內(nèi)存、文件、關(guān)系型數(shù)據(jù)庫、原生RDF數(shù)據(jù)存儲系統(tǒng)和圖數(shù)據(jù)庫等五種方式[25-27]。一方面,由于使用圖數(shù)據(jù)庫存儲知識,不僅更加符合節(jié)點、節(jié)點屬性、關(guān)系表達邏輯,還可以為邊分配屬性[28],與SPO-TS知識表示模型相契合;另一方面,從知識的計算與推理的角度來看,Neo4j[29]等圖數(shù)據(jù)庫支持社團檢測(community de‐tection)、標簽傳播(label propagation)、中心節(jié)點計算(centrality algorithm)等圖挖掘算法,便于史書知識的進一步挖掘與利用。綜上考慮,本研究采用圖數(shù)據(jù)庫Neo4j完成史書多維知識的存儲。
在史書多維知識庫的基礎(chǔ)上,本研究借助可視化技術(shù)實現(xiàn)史書知識的多維展示,不僅能夠拉近普通讀者與史書的距離,更允許從不同維度出發(fā)探索史書中包含的歷史知識。如何展現(xiàn)知識背后的知識體系以及實現(xiàn)知識與原文的鏈接是可視化平臺構(gòu)建應(yīng)考慮的重點問題。
本研究結(jié)合不同類型實體的知識特點,設(shè)計了三種呈現(xiàn)方案,即中心視圖、時間軸視圖和關(guān)聯(lián)視圖,實現(xiàn)以不同實體為中心的、與史書原文相關(guān)聯(lián)的結(jié)構(gòu)化知識呈現(xiàn)方案。由于對可視化的說明結(jié)合具體實例更加直觀,因此,相關(guān)內(nèi)容在第4.2節(jié)中展開說明。
紀傳體史書以歷史上的重要人物為主線,大量未成傳人物的信息散落于各卷之中,難以獲取。因此,需要從人物、時間、地點等維度出發(fā)完成重組?!妒酚洝肥俏覈鴼v史上第一部紀傳體史書,記載了從上古時期至西漢漢武帝時期長達三千多年的歷史事件,被稱為中國古代二十四史之首。本節(jié)將上文提出的史書多維知識重組與可視化系統(tǒng)應(yīng)用于《史記》,以證明系統(tǒng)的可行性。
本研究以上文提出的SPO-TS知識表示模型作為史書知識語義化和形式化描述的基礎(chǔ)框架,基于上文所確定的史書中的核心概念以及概念之間的關(guān)系,完成史書多維知識建模。下文主要介紹《史記》多維知識庫構(gòu)建及可視化呈現(xiàn)的具體過程和結(jié)果。
4.1.1 語料采集與預(yù)處理
首先,本研究獲取了包含年表及段落信息的《史記》全文、具有分詞與詞性標記的《史記》語料以及古代職官辭典,并基于《史記及注釋綜合引得》獲得了人物同名詞典與人物別名詞典,具體信息如表2所示。
表2 《史記》多維知識處理基礎(chǔ)語料
采用機器學(xué)習(xí)、字符串匹配等方法整合上述基礎(chǔ)語料,獲得具備段落、句子信息以及分詞、詞性、官職名標記的《史記》語料,共130卷,包含十二本紀、三十世家、七十列傳、十表、八書,共45109個句子,680941個字(含標點符號)。
4.1.2 《史記》多維知識獲取與融合
采用本課題組前期開發(fā)的史書時間軸自動生成系統(tǒng),將史書中的事件句定位在時間軸上,實現(xiàn)以時間為主線的史書內(nèi)容重組,結(jié)果示例如圖5所示。
圖5 《史記》歷史事件時間軸自動生成示例
本紀、世家、列傳、書所涉及的111卷《史記》語料共有31130個句子,共識別非模糊型時間表達式3564個,歷史事件時間軸自動生成系統(tǒng)共為19868個事件句分配了時間信息,最終有16902個事件句定位于公元時間軸上。隨機抽取本紀、世家、列傳部分各一卷進行人工核驗,顯示其準確率均達到89%以上。
基于本課題組前期開發(fā)的三元組知識抽取模型以及觸發(fā)詞抽取模型獲得了《史記》中的三元組知識及對應(yīng)的觸發(fā)詞。共獲得句內(nèi)三元組實例17709個,具體示例如圖6所示,其中70%的三元組實例包含觸發(fā)詞。此外,人工補充跨句子的三元組知識589個。在此基礎(chǔ)上與事件句以及前序為事件句所分配的時間信息相結(jié)合,形成SPO-TS知識實例,繼而完成實體與SPO-TS知識兩個層面的知識融合。
圖6 三元組知識抽取結(jié)果示例
采用上文所描述的知識融合方法將前序抽取得到的27341例人名進行消歧。通過歧義詞典判定共6267例人名存在歧義,占所有人名的22.92%。通過上述方法將4421例歧義人名鏈接至其主稱謂,例如,將《呂不韋列傳》中的“夏姬”鏈接至夏太后,將《襄侯列傳》中的“昭王”鏈接至秦昭襄王。此外,共8304例人名通過別名詞典鏈接至其主稱謂,占全部人名的30.37%。從而完成了SPO-TS實例層面的合并與去重。
4.1.3 知識存儲
本研究結(jié)合前期開發(fā)的歷史事件時間軸自動生成工具和三元組知識自動抽取工具獲取了《史記》中的多維知識,繼而通過知識融合將散落的知識相連接,最終將獲取的所有知識存儲于開源圖數(shù)據(jù)庫Neo4j中,呈現(xiàn)效果如圖7所示。
本研究構(gòu)建了《史記》多維知識可視化平臺(http://www.shijigraph.com/),該平臺支持以《史記》中出現(xiàn)的任意人物、時間、地點、社會集團、職官為檢索對象,呈現(xiàn)相關(guān)聯(lián)的歷史知識和原文,以期緩解讀者多維的信息獲取需求與《史記》以人物為中心展開的矛盾,拉近普通讀者與經(jīng)典史籍之間的距離。
用戶在前端輸入字符串,后臺經(jīng)過簡轉(zhuǎn)繁、實體鏈接、相似度匹配、知識庫數(shù)據(jù)獲取與呈現(xiàn)等步驟以可交互圖的方式返回檢索結(jié)果。同時,本研究根據(jù)實體知識特點的共性與差異性,設(shè)計了不同的呈現(xiàn)方案。
4.2.1 以人物、地點、職官、社會集團等實體為中心的兩種呈現(xiàn)方式
由于人物、地點、職官、社會集團等實體,一方面與其他實體產(chǎn)生多類型語義關(guān)聯(lián),另一方面,許多關(guān)聯(lián)如態(tài)度傾向等具有隨時間動態(tài)變化的特點。因此,本研究設(shè)計了中心視圖和時間軸視圖兩種呈現(xiàn)方式。下文將以人物為例,展示并說明兩種視圖的機制和相關(guān)功能。
(1)中心視圖:中心視圖是以人物、地點、社會團體、職官等實體為中心呈現(xiàn)實體相關(guān)知識。圖8以春秋時期吳國延陵季子為例,其事跡記載于《吳太公世家》《鄭世家》《晉世家》《趙世家》等不同卷冊之中。所涉及的知識類型包含人物關(guān)系、地理軌跡、官職變遷以及關(guān)聯(lián)集團等。中心視圖以某一具體實體為中心,從頂級關(guān)系類型開始層層細分,直至關(guān)系類型的最小單位,引導(dǎo)用戶由粗至細地了解實體相關(guān)知識。
考慮到呈現(xiàn)結(jié)果的密集度,每種關(guān)系類型僅呈現(xiàn)1~2條知識,點擊關(guān)系類型節(jié)點如“親屬”,將在彈框中呈現(xiàn)延陵季子的所有親屬。同時,將指針移向關(guān)系連接線,將顯示該條知識的具體出處,從而與史書原文相關(guān)聯(lián)。
(2)時間軸視圖:時間軸視圖呈現(xiàn)《史記》中任意人物、社會集團等實體隨時間的動態(tài)變化。圖9以時間軸的形式呈現(xiàn)了記載于《史記》多卷冊當(dāng)中的延陵季子(季札)的生平信息,時間軸最上側(cè)是其父母兄弟等不具有時間屬性的知識如親屬,之后則按年份依次呈現(xiàn)人物發(fā)生的事件,直觀地展現(xiàn)實體隨時間的動態(tài)變化。同時,兩側(cè)展現(xiàn)了知識來源,從而與《史記》原文相關(guān)聯(lián)。
圖9 時間軸視圖示例(延陵季子檢索結(jié)果部分截圖)
4.2.2 時間知識的呈現(xiàn)
對于時間的檢索,平臺支持以公元時間為檢索式,以關(guān)聯(lián)視圖的形式返回與該時間點相關(guān)聯(lián)的所有歷史以及對應(yīng)的原文片段,便于讀者概覽該年份的重要人物與事件。例如,由延陵季子的時間軸視圖(圖9)可知,其于公元前548年封于延陵,圖10是在系統(tǒng)中輸入公元前548年,所展現(xiàn)出的記載于《齊太公世家》《晉世家》等各卷中的當(dāng)年事件,可以幫助用戶了解當(dāng)年各個諸侯國的動態(tài),從而更加全面地看待歷史。同樣地,鼠標移至實體間連線可以查看知識出處。
本研究創(chuàng)新性地采用知識組織、古籍智能處理等理論、方法和技術(shù)解決中國古代史籍的信息獲取問題,理論意義和現(xiàn)實意義主要體現(xiàn)在以下兩方面:一方面,本研究從史書體裁維度出發(fā)構(gòu)建史書知識模型,有助于實現(xiàn)不同史書知識以人物、時間、地點、國家、職官等維度為中心互聯(lián),有效彌補了史書體裁主線限制所帶來的信息獲取問題,打破史書體裁限制所導(dǎo)致的信息獲取壁壘;另一方面,本研究將晦澀的古漢語句子轉(zhuǎn)化為更容易被人和機器所理解的結(jié)構(gòu)化知識,并針對不同類型的實體提出可視化方案,從而呈現(xiàn)史書中的歷史知識,并特別注重于史書原文的關(guān)聯(lián),有助于拉近普通讀者與經(jīng)典史籍之間的距離,促進對中國古代經(jīng)典史籍的利用。
針對當(dāng)前相關(guān)研究的痛點和難點,本研究提出史書多維知識重組與可視化系統(tǒng),并將其應(yīng)用于我國第一部紀傳體史書《史記》。該系統(tǒng)包含三個主要部分:①基于SPO-TS知識表示模型完成史書多維知識建模,從而更好地表示史書中的動態(tài)知識;②基于古籍智能處理技術(shù)完成史書多維知識庫構(gòu)建,提高了自動化程度;③考慮與史書原文的關(guān)聯(lián)完成多維知識可視化,從而拉近用戶與史書原文之間的距離。
本研究提出了史書多維知識重組與可視化系統(tǒng),并應(yīng)用于《史記》。但仍有以下工作需要進一步探究:本研究以《史記》為例展開實踐,多維知識建模主要考慮了紀傳體、編年體等五種史書體裁的主線,未來將考慮紀事本末體以及典章體中軍事、文化等多個維度的建模;數(shù)據(jù)獲取主要考慮了《史記》單本史書,后續(xù)將擴大史書規(guī)模,并探究維基百科、百度百科等數(shù)據(jù)庫中歷史領(lǐng)域結(jié)構(gòu)化數(shù)據(jù)與本研究所構(gòu)建知識庫的融合。