熊 晶, 韓勝偉
(1.安陽師范學(xué)院 計(jì)算機(jī)與信息工程學(xué)院, 河南 安陽 455000;2.甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,河南 安陽 455000)
甲骨文是目前發(fā)現(xiàn)的最早成體系的漢字,是中華民族傳統(tǒng)文化的瑰寶。甲骨文因其記錄了3000年前殷商時期各方面的事件,具有極高的文物價(jià)值、史料價(jià)值和研究價(jià)值[1]。從1899年甲骨文被發(fā)現(xiàn)以來,經(jīng)海內(nèi)外學(xué)者近120年前赴后繼的探索,甲骨文的歷史奧秘逐漸揭開,針對甲骨文的研究嶄然成為一門舉世矚目的國際性顯學(xué)——甲骨學(xué)[1]。甲骨學(xué)是以甲骨文和它的載體卜甲、卜骨及相關(guān)考古學(xué)現(xiàn)象為研究對象,整合古文字學(xué)、歷史學(xué)、歷史文獻(xiàn)學(xué)、文化人類學(xué)等多個學(xué)科的理論、方法和材料探析甲骨文和甲骨自身規(guī)律及商周歷史文化的專門性學(xué)科[2]。但是傳統(tǒng)的甲骨學(xué)研究方法存在知識體系龐大、學(xué)習(xí)難度高、學(xué)習(xí)周期長、知識關(guān)聯(lián)性弱、知識共享程度低等問題[3],若能將海量的甲骨學(xué)知識點(diǎn)以語義關(guān)聯(lián)方式進(jìn)行組織和管理,可以有效解決或緩解這些問題。2019年10月18日,“殷契文淵”——甲骨文大數(shù)據(jù)平臺正式發(fā)布,該平臺為甲骨學(xué)研究提供大數(shù)據(jù)支持,標(biāo)志著甲骨學(xué)研究進(jìn)入智能化時代。正如中國社會科學(xué)院學(xué)部委員、中國社會科學(xué)院甲骨學(xué)殷商史研究中心主任宋鎮(zhèn)豪先生在紀(jì)念甲骨文發(fā)現(xiàn)120周年國際學(xué)術(shù)研討會學(xué)術(shù)工作委員會上所說:“新世紀(jì)、新機(jī)遇,新使命,在甲骨文的整理保護(hù)與科學(xué)研究方面,應(yīng)該有新的作為?!币虼?,新時代的甲骨學(xué)研究需要開啟新的研究模式。
近年來,人工智能技術(shù)發(fā)展迅猛,在各行業(yè)都有了成熟的應(yīng)用或突破性的進(jìn)展,如人臉識別、語音助手、自動駕駛等??傮w而言,人工智能在感知層面的發(fā)展較好,如人臉識別技術(shù)。但是,在認(rèn)知層面人工智能的發(fā)展相對滯后,如常識理解。其主要原因是目前的人工智能絕大多數(shù)是基于大數(shù)據(jù)、大算力和強(qiáng)算法的,需要大量的人工進(jìn)行數(shù)據(jù)的標(biāo)注和處理,呈現(xiàn)“人工有余而智能不足”的現(xiàn)象。而認(rèn)知層面的人工智能需要計(jì)算機(jī)具備認(rèn)知理解和知識推理的能力,需要有深厚的背景知識作為基礎(chǔ)。甲骨學(xué)是屬于融合了感知智能和認(rèn)知智能且認(rèn)知多于感知的綜合研究,因此勢必需要一個龐大的知識庫作為支撐。知識圖譜[4]就是一個可以提供領(lǐng)域背景知識超大規(guī)模的知識庫,它通過“節(jié)點(diǎn)-邊-節(jié)點(diǎn)”的方式,將知識點(diǎn)進(jìn)行語義關(guān)聯(lián),從而構(gòu)成一個龐大的知識網(wǎng)絡(luò),可望實(shí)現(xiàn)人工智能從感知智能向認(rèn)知智能邁進(jìn)。因此,構(gòu)建甲骨學(xué)知識圖譜是一項(xiàng)極其重要的基礎(chǔ)工程,可為甲骨學(xué)的知識共享和推理提供基本需求。
因此,人工智能時代的甲骨學(xué)研究需要實(shí)行人機(jī)結(jié)合、分工明確、通力合作、機(jī)服務(wù)人的策略和部署。即甲骨文專家和計(jì)算機(jī)各自充分發(fā)揮自身優(yōu)勢,由計(jì)算機(jī)負(fù)責(zé)感知層面的圖像識別、信息檢索等有規(guī)律可循、有模式可用的重復(fù)性強(qiáng)的工作;由甲骨文專家負(fù)責(zé)認(rèn)知層面的知識推理、正誤判斷等無固定模式、需要決策的創(chuàng)造性強(qiáng)的工作。在現(xiàn)階段,總體思路是計(jì)算機(jī)服務(wù)于甲骨文專家,輔助專家進(jìn)行甲骨學(xué)研究。
隨著甲骨學(xué)研究的不斷推進(jìn),我們已經(jīng)積累了相當(dāng)規(guī)模的基礎(chǔ)數(shù)據(jù),包括甲骨學(xué)文獻(xiàn)、甲骨文著錄、數(shù)據(jù)庫、文本語料庫、視頻、圖像、3D模型等多種形式,已體現(xiàn)出多模態(tài)特征[3]。因此,我們的目標(biāo)是基于多源異構(gòu)數(shù)據(jù)源,構(gòu)建跨模態(tài)的甲骨學(xué)知識圖譜。
作為一門綜合學(xué)科,甲骨學(xué)的研究涉及到多領(lǐng)域多來源的知識,且知識存儲格式不統(tǒng)一,知識表示方式各異,涉及到字(甲骨文字形字體)、圖(甲骨文圖片)、文(甲骨文文本)、表(數(shù)據(jù)表格)、著(文獻(xiàn)及著錄)等多種形式。管理、共享和重用這些知識需要一個有效的工具,跨模態(tài)知識圖譜可堪此重任,且在解決甲骨文考釋和綴合兩大難題方面有著重要作用??缒B(tài)知識圖譜示意圖如圖1所示。
圖1 甲骨學(xué)跨模態(tài)知識圖譜示意圖
1.在知識管理和共享方面的重要性
甲骨學(xué)研究必須依賴大量的文獻(xiàn)資料,并基于文獻(xiàn)進(jìn)行一系列的知識關(guān)聯(lián)分析。如學(xué)者與文獻(xiàn)的關(guān)系、學(xué)者及其合作關(guān)系、研究機(jī)構(gòu)及其合作關(guān)系、文獻(xiàn)之間引用與被引關(guān)系。而且,甲骨學(xué)的研究必須借助于相關(guān)的輔助學(xué)科。如借助于考古學(xué),去解決甲骨出土的問題;借助于文獻(xiàn)學(xué),去解決甲骨學(xué)中的殷商歷史問題;借助于語言學(xué)理論,去解決甲骨學(xué)的語言文字的問題;借助于自然科學(xué)中的天文學(xué)、地理學(xué)、物理學(xué)和數(shù)學(xué),去解決甲骨學(xué)中的諸方面的問題[5]。這些問題都涉及到文獻(xiàn)的計(jì)量與分析技術(shù),因此構(gòu)建甲骨學(xué)文獻(xiàn)圖譜極其重要。
甲骨文信息處理為改善傳統(tǒng)的甲骨學(xué)研究開拓了一條新的有效途徑。經(jīng)過20年的甲骨文信息處理的研究積累,我們設(shè)計(jì)和構(gòu)建了一系列甲骨文數(shù)據(jù)庫,如甲骨文語義詞典、甲骨文著錄數(shù)據(jù)庫、甲骨文文獻(xiàn)數(shù)據(jù)庫、甲骨文綴合數(shù)據(jù)庫等。這些數(shù)據(jù)庫符合一定的模式,存儲的是知識元組,是從海量的甲骨文知識數(shù)據(jù)源中提煉出結(jié)果,是知識在一定程度的整理和總結(jié)。因此,建設(shè)甲骨文數(shù)據(jù)庫有著重要作用。
利用計(jì)算機(jī)進(jìn)行甲骨文研究,需要考慮甲骨文的語法結(jié)構(gòu)、句法結(jié)構(gòu)以及語義信息,因此甲骨文的文本整理成為一項(xiàng)基礎(chǔ)工作。甲骨文文本既包括甲骨文釋文,也包括甲骨文文獻(xiàn)及著錄的文本化,還包括涉及甲骨文研究的網(wǎng)頁、教材、評論等信息?;诩坠俏奈谋?,通過構(gòu)建語言模型,可以進(jìn)行文本挖掘、實(shí)體識別、關(guān)系抽取、語義相似度計(jì)算等機(jī)器學(xué)習(xí)和自然語言處理等自動化工作。因此,構(gòu)建甲骨文文本語料庫具有重要作用。
甲骨文研究的對象包括甲骨照片、拓片、摹本等圖像,如何從這些圖像中自動檢測和識別出甲骨文字,是甲骨文信息處理研究的重要任務(wù)。與其他自然場景的圖像處理不一樣的是,甲骨圖像含有更為特殊的噪聲,而且對拓片圖像進(jìn)行處理時,往往會將甲骨上的生物紋理識別為文字筆畫。甲骨片的殘缺以及甲骨上的殘字模糊字給甲骨文字的檢測與識別帶來極大的挑戰(zhàn),往往需要綜合考慮和對照甲骨照片、拓片、摹本以及釋文等信息。因此,構(gòu)建甲骨文圖像資源庫是極其重要的。
甲骨學(xué)體系龐大,知識點(diǎn)眾多,知識表示及存儲格式不統(tǒng)一,而且甲骨文專家對甲骨文的辨識依靠長期的學(xué)術(shù)鉆研和經(jīng)驗(yàn)積累,這種經(jīng)驗(yàn)知識僅存儲在專家的頭腦中,并不能實(shí)現(xiàn)知識的有效共享。如何利用一種有效的技術(shù)實(shí)現(xiàn)現(xiàn)有甲骨文知識的共享,并方便計(jì)算機(jī)對其進(jìn)行理解和處理?本體作為共享概念模型的明確的形式化規(guī)范說明[6]可以為這一問題提供解決方案。甲骨文信息處理研究中,為了給甲骨文基礎(chǔ)數(shù)據(jù)提供語義信息,需要采取一種機(jī)器可讀的表達(dá)形式。構(gòu)建甲骨文本體可以為甲骨文數(shù)據(jù)提供語義表達(dá)及知識推理功能,因此,對甲骨文知識的共享、重用和推理具有極其重要的作用。
綜上所述,管理和共享甲骨學(xué)知識需要整合各種數(shù)據(jù)資源,并從這些多源異構(gòu)的數(shù)據(jù)中抽取知識實(shí)體,并挖掘和構(gòu)建實(shí)體之間的語義關(guān)聯(lián),這樣就構(gòu)建了一個大規(guī)模的跨模態(tài)知識圖譜。具體的構(gòu)建流程如圖2所示。
圖2 甲骨學(xué)跨模態(tài)知識圖譜的構(gòu)建流程
2.在甲骨文考釋方面的重要性
甲骨文字考釋,是利用其他古文字材料和傳世字書把過去不認(rèn)識的甲骨文字釋讀出來,從而把不易理解的甲骨卜辭講解清楚,為其他研究做準(zhǔn)備。甲骨文考釋的常用方法有“字形比較法”“辭例推勘法”“偏旁分析法”等。
“字形比較法”一方面要求熟悉每一個甲骨字的筆畫特征,還要深入把握同一個甲骨文字的不同異體,需要明確哪些筆畫區(qū)別字形,哪些筆畫不區(qū)別字形,通用無別;而且還要對甲骨文字的類組差異、異體分工等現(xiàn)象有深入理解,需要全面梳理甲骨用字情況。另一方面,要求把握每一個已識甲骨字的形體演變,總結(jié)出基本構(gòu)字偏旁的歷時演變規(guī)律,因此需要掌握不同時期甲骨字關(guān)聯(lián)的其它形體的古文字。
“辭例推勘法”主要通過不同辭例的互相比較、分析,歸納出甲骨未釋字的語義特征和范圍,鎖定釋讀方向。雖然多數(shù)情況下不能直接得出釋讀結(jié)論,但卻是“字形比較法”的重要補(bǔ)充,具有重要的作用。因此,在不能肯定某一未釋甲骨字究竟為何字時,能推測其所屬的語義范疇也是極其重要的。
“偏旁分析法”是形體分析法的重要組成部分,也是學(xué)界常用的考釋文字的手段和方法,它是通過文字構(gòu)成部件及其組構(gòu)關(guān)系的分析來達(dá)到考釋文字的目的。把這種方法提高到一種具有科學(xué)意義的研究手段,是從清末孫詒讓開始的。其做法是先把已經(jīng)認(rèn)識的古文字,按照偏旁分析為一個個單體,然后把各個單體偏旁的不同形式收集起來,研究它們的發(fā)展變化;在認(rèn)識偏旁的基礎(chǔ)上,最后再來認(rèn)識每個文字[7]。因此,明確偏旁和文字之間的關(guān)聯(lián)和位置關(guān)系也是一項(xiàng)重要工作。
因此,對甲骨文考釋而言,知道哪一個字出現(xiàn)在哪些甲骨片上,知道某個甲骨字的異體字有哪些,知道哪些甲骨片記載于哪些著錄,知道哪些文獻(xiàn)研究過哪些甲骨片是至關(guān)重要的。這就勢必要求建立這些知識元素之間的關(guān)聯(lián)關(guān)系,并能通過關(guān)系獲取考釋線索,從而輔助甲骨文專家進(jìn)行考釋研究??缒B(tài)知識圖譜可以很好地滿足這些要求,一個知識圖譜片段如圖3所示。
圖3 甲骨字與甲骨片、異體字的關(guān)聯(lián)關(guān)系
知識圖譜的另一個優(yōu)勢是鏈接預(yù)測和知識圖譜補(bǔ)全,通常知識圖譜補(bǔ)全以鏈接預(yù)測的形式來實(shí)現(xiàn)。簡言之,在知識圖譜的“節(jié)點(diǎn)(頭實(shí)體,可用h表示)-邊(節(jié)點(diǎn)之間的關(guān)系,可用r表示)-節(jié)點(diǎn)(尾實(shí)體,可用t表示)”結(jié)構(gòu)中,可能會有缺失的元素,知識圖譜補(bǔ)全則是將缺失的元素補(bǔ)充完整。例如,假定有一個鏈接預(yù)測任務(wù) (h, r, ?) ,對于一個給定的實(shí)體h,和一個給定的關(guān)系r,預(yù)測的任務(wù)就是確定哪個實(shí)體或者哪些實(shí)體可以形成一個知識三元組 (h, r, t)。利用知識圖譜補(bǔ)全的方法,可以預(yù)測甲骨文中殘缺或模糊字語義鏈接,從而為甲骨文專家進(jìn)行考釋提供有價(jià)值的線索。
綜上所述,跨模態(tài)知識圖譜在甲骨文考釋方面具有重要的作用。
3.在甲骨文綴合方面的重要性
通過綴合而得到的甲骨刻辭具有相當(dāng)高的史料價(jià)值??虒懼淖值凝敿撰F骨,有的早在殷代就已斷裂,有的經(jīng)過三千多年地下的埋藏腐蝕,已成碎片殘骨,有的在出土后遭人為的原因而斷缺。把斷片盡可能綴合復(fù)原,是甲骨文研究的重要工作之一[8]。甲骨文經(jīng)過綴合復(fù)原的處理,才能找出各辭之間的相互關(guān)系,恢復(fù)當(dāng)時的卜辭文例,從而成為認(rèn)識商代社會的重要史料[9]。
進(jìn)行甲骨文綴合研究,需要綜合考慮多種數(shù)據(jù)來源和數(shù)據(jù)屬性,如甲骨圖片、甲骨綴合圖版、釋文考釋、綴合人、綴合方法、綴合時間、增量綴合(即在前人綴合成果上增加的綴合新例)情況、著錄、發(fā)表的綴合文章、綴合出處等,還需要考慮片形、文字、卜兆、文例、分期等信息。不同時期的甲骨綴合也采用了不同的方法,如甲骨綴合的初級階段多是傳世著錄拓片碎片的零散片斷的綴合,主要是靠學(xué)者的學(xué)識和聰慧;發(fā)展與成熟階段,董作賓首倡的甲骨拓片“定位法”研究,不僅對甲骨文例的研究,而且對零碎的甲骨拓本綴合研究也頗有啟示意義,并愈來愈得到1928年科學(xué)發(fā)掘殷墟出土甲骨實(shí)物的驗(yàn)證和豐富;“甲骨形態(tài)學(xué)”研究的新階段,開始對甲骨文的載體——龜甲和胛骨進(jìn)行深層次、全方位、多角度的研究。如黃天樹等學(xué)者對龜腹甲(包括背甲)和胛骨進(jìn)行了化整為零的齒縫片形態(tài)和特征的深層次觀察,為甲骨碎片的求其全體的“定位”的“甲骨形態(tài)學(xué)”的完善和形成作出了貢獻(xiàn),推動了甲骨綴合研究的發(fā)展[9]。
由此可見,從事甲骨綴合研究,需要專家長期的科研積累和對甲骨材料、文獻(xiàn)的敏銳洞察,一點(diǎn)一滴的綴合線索往往隱含在海量的甲骨數(shù)據(jù)和傳世文獻(xiàn)中。而且,綴合過程中往往需要各種數(shù)據(jù)相互印證和信息互補(bǔ)。如較小的拓片無法確定材質(zhì)時,通??梢杂谜掌?D來補(bǔ)充;候選綴合片組合是否正確時,通常利用釋文進(jìn)行驗(yàn)證。這些線索之間往往有著直接和間接的聯(lián)系,一旦找到其關(guān)鍵點(diǎn),就能達(dá)到“綱舉目張”的效果。而這些關(guān)聯(lián)信息一旦存儲和記錄在跨模態(tài)知識圖譜中,通過節(jié)點(diǎn)路徑查找,可以尋覓“蛛絲馬跡”,從而輔助甲骨文專家進(jìn)行綴合。
計(jì)算機(jī)輔助甲骨綴合研究中,排除不正確的綴合候選項(xiàng)也是一個重要內(nèi)容。一方面,綴合后的甲骨有利于復(fù)原甲骨卜辭;另一方面,擬復(fù)原的甲骨卜辭也可以印證綴合候選項(xiàng)是否正確。但是,判斷擬綴合的候選甲骨是否正確是一項(xiàng)高要求高標(biāo)準(zhǔn)的工作,完全依賴甲骨文專家仍然無法擺脫現(xiàn)有的研究困境。而知識圖譜可在這一方面“助一臂之力”?;谥R圖譜進(jìn)行查詢和推理,利用一致性檢驗(yàn)、異常點(diǎn)分析、團(tuán)組挖掘,可以發(fā)現(xiàn)潛在風(fēng)險(xiǎn)。正因?yàn)槿绱?,知識圖譜在金融反欺詐場景中有著廣泛應(yīng)用。同樣,這一優(yōu)勢可以遷移到甲骨綴合研究,通過發(fā)現(xiàn)“綴合異常”為甲骨文專家提供判斷線索。
綜上所述,跨模態(tài)知識圖譜在甲骨文綴合研究方面有著重要作用。
大數(shù)據(jù)時代,一個場景中缺失的信息往往在另一個場景中重復(fù)出現(xiàn),各種信息重疊和復(fù)現(xiàn),很容易就能實(shí)現(xiàn)“用戶畫像”,甲骨文信息處理的研究也是如此?;诩坠俏幕A(chǔ)研究數(shù)據(jù)的多模態(tài)特性,通過構(gòu)建大規(guī)模跨模態(tài)的甲骨學(xué)知識圖譜,將知識實(shí)體的屬性及關(guān)系進(jìn)行知識表示和存儲,就能實(shí)現(xiàn)“甲骨畫像”。借助甲骨學(xué)知識圖譜,利用人工智能技術(shù)可以有效緩解或解決目前甲骨學(xué)研究中知識表示、管理、共享及重用等諸方面的問題,從而服務(wù)于甲骨文專家從事考釋及綴合方面的研究。