国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)驅(qū)動(dòng)的未識(shí)甲骨字特性及場(chǎng)景語義預(yù)測(cè)

2020-04-21 03:57焦清局劉永革利萍金園園劉國(guó)英高峰
關(guān)鍵詞:拓片甲骨結(jié)點(diǎn)

焦清局,劉永革,仇 利萍,金園園,熊 晶,劉國(guó)英,高峰

(1.安陽師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院,河南安陽455000; 2.甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,河南安陽455000; 3.河南省甲骨文信息處理重點(diǎn)實(shí)驗(yàn)室,河南安陽455000; 4.安陽師范學(xué)院歷史與文博學(xué)院,河南安陽455000; 5.中國(guó)社會(huì)科學(xué)院先秦史研究所,北京100732)

甲骨學(xué)的研究為人們探究中國(guó)文字的起源、殷商史及中國(guó)文明史具有重要的意義。然而,單純依靠文獻(xiàn)的傳統(tǒng)甲骨學(xué)研究已不能滿足當(dāng)今社會(huì)發(fā)展的需要,特別是不能快速有效地破譯未識(shí)甲骨字的語義。隨著甲骨學(xué)研究成果和文獻(xiàn)的積累,甲骨學(xué)知識(shí)逐步呈現(xiàn)系統(tǒng)和大規(guī)?;槔糜?jì)算機(jī)技術(shù)研究甲骨學(xué)提供了基礎(chǔ)數(shù)據(jù)。近年來,在甲骨字的輸入和可視化、識(shí)別、語義分析、網(wǎng)絡(luò)甲骨學(xué)等方面已有一些初步探索和研究。甲骨字的輸入為甲骨學(xué)文獻(xiàn)和著錄的數(shù)字化提供了必要的工具。2004 年,為對(duì)甲骨文字、拓片、文獻(xiàn)等信息數(shù)字化,劉永革等[1]開發(fā)了甲骨字輸入法:將甲骨字轉(zhuǎn)化為圖片,并通過插入圖片的方法輸入甲骨字。為了更好地輸入甲骨字,肖明等[2]利用模糊信息分析理論研究了象形碼編碼模型。顧紹通等[3]通過編碼研究,可從形和音的角度輸入甲骨文:首先,利用部件對(duì)甲骨字進(jìn)行拆分,然后,將甲骨字部件與標(biāo)準(zhǔn)鍵盤的26 個(gè)鍵位建立映射關(guān)系,最后,按照規(guī)定順序輸入甲骨字部件對(duì)應(yīng)的鍵位,完成甲骨文輸入。與顧紹通等的方法類似,聶艷召等[4]將甲骨字拆分成更小的部件(稱為筆畫或碼元),然后設(shè)計(jì)編碼系統(tǒng),進(jìn)而輸入甲骨字。在計(jì)算機(jī)技術(shù)輔助的甲骨學(xué)研究中,甲骨字識(shí)別在甲骨異體字(異體字是同一個(gè)甲骨字的不同寫法)辨別、甲骨學(xué)文獻(xiàn)數(shù)據(jù)庫建設(shè)等方面具有重要作用。栗青生等[5]通過對(duì)甲骨字向圖的轉(zhuǎn)換,進(jìn)而識(shí)別甲骨文字。該方法首先把甲骨字的一些重要端點(diǎn)和交點(diǎn)抽象為圖中的點(diǎn);然后,根據(jù)甲骨字形連接圖中點(diǎn)之間的邊,進(jìn)而形成該甲骨字的圖;最后,根據(jù)圖的匹配算法識(shí)別未知甲骨字。2014 年,高峰等[6]首先利用語境分析生成的候選字庫得到對(duì)應(yīng)的甲骨文語義構(gòu)件向量,然后結(jié)合Hopfield 網(wǎng)絡(luò)識(shí)別的結(jié)果計(jì)算待識(shí)別的甲骨文模糊字的匹配度,根據(jù)匹配度識(shí)別甲骨字。2016 年,顧紹通等[7]通過對(duì)甲骨字的拓?fù)涮崛『途幋a抽象甲骨字,并通過拓?fù)渑錅?zhǔn)算法識(shí)別甲骨字。同樣利用圖像處理的方法,GUO等[8]首先利用Gabor 變換和稀疏表達(dá)提出一種層次表示(hierarchical representation)法,然后結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)識(shí)別甲骨字。在甲骨文語義分析方面,2012 年,袁冬等[9]提出基于實(shí)例的甲骨文釋文機(jī)器翻譯方案,并實(shí)現(xiàn)一套機(jī)器翻譯系統(tǒng)。2015 年,高峰等[10]首先構(gòu)建一個(gè)融合甲骨文和現(xiàn)代漢語的語義知識(shí)庫,然后通過可拓模型解決甲骨卜辭問題。同年,熊晶等[11]在文本挖掘的基礎(chǔ)上,結(jié)合語義Web 技術(shù),將實(shí)體及其關(guān)系資源描述框架(resource description framework,RDF)抽象化,并在生成的RDF 集合中進(jìn)行語義搜索,利用本體關(guān)系和推理挖掘RDF 對(duì)象間顯式或隱式的語義關(guān)系。在網(wǎng)絡(luò)甲骨學(xué)方面,2016 年,DRESS 等[12]選擇60 個(gè)甲骨文動(dòng)物字作為研究對(duì)象,通過提取這些甲骨字的特征向量,計(jì)算相似性距離,構(gòu)建動(dòng)物甲骨字的認(rèn)知網(wǎng)絡(luò)。焦清局等[13]從系統(tǒng)的角度研究甲骨學(xué),并利用甲骨拓片數(shù)據(jù),通過建模構(gòu)建甲骨字網(wǎng)絡(luò)。在甲骨字網(wǎng)絡(luò)之上,對(duì)網(wǎng)絡(luò)屬性進(jìn)行分析,為用計(jì)算機(jī)技術(shù)預(yù)測(cè)未識(shí)甲骨字的語義提供數(shù)據(jù)和理論支持。

語言是人類驅(qū)動(dòng)(human-driven)的復(fù)雜適應(yīng)系統(tǒng)[14],從復(fù)雜系統(tǒng)或復(fù)雜網(wǎng)絡(luò)的角度對(duì)自然語言的研究可以充分捕捉語句、詞、字之間的語法和語境的內(nèi)在關(guān)聯(lián)信息,也有助于揭示語言的結(jié)構(gòu)化和語言在演化過程中的未知屬性[15]。2001 年,CANCHO等[16]首次利用復(fù)雜網(wǎng)絡(luò)的方法構(gòu)建并研究英語同現(xiàn)網(wǎng)絡(luò)。隨后,從復(fù)雜網(wǎng)絡(luò)的角度對(duì)語言進(jìn)行研究,包括語言網(wǎng)絡(luò)的構(gòu)建及其特性分析、語言中未知屬性分析、基于網(wǎng)絡(luò)視角的語言認(rèn)知分析等。2005 年,STEYVERS 等[17]構(gòu)建并分析了3 種語義網(wǎng)絡(luò),并對(duì)它們進(jìn)行網(wǎng)絡(luò)特性的對(duì)比分析。此外,還提出一種語義網(wǎng)絡(luò)增長(zhǎng)模型。同年,韋洛霞等[18]根據(jù)詞同現(xiàn)構(gòu)建了漢語網(wǎng)絡(luò),并揭示網(wǎng)絡(luò)的無標(biāo)度特性。ARBESMAN 等[19]構(gòu)建了英語和西班牙的音韻(phonologically)網(wǎng)絡(luò),并詳細(xì)分析了具有相同小構(gòu)件的西班牙語和英語在音韻和語義之間的差異。SIEW 等[20]不僅構(gòu)建了音韻網(wǎng)絡(luò),而且使用模塊結(jié)構(gòu)(module structure)挖掘算法,從音韻網(wǎng)絡(luò)中挖掘17 個(gè)模塊,并分析了模塊的特性。 2017 年,DAUTRICHE 等[21]利用字之間的相鄰音韻關(guān)系構(gòu)建音韻相鄰網(wǎng)絡(luò),分析發(fā)現(xiàn),與隨機(jī)網(wǎng)絡(luò)相比,音韻網(wǎng)絡(luò)有較高聚類系數(shù)和傳遞性。2019 年,LIANG等[22]利用構(gòu)建的206 個(gè)現(xiàn)代漢字共現(xiàn)網(wǎng)絡(luò)(cooccurrence network)分析其演化過程中的統(tǒng)計(jì)參數(shù)關(guān)系,結(jié)果表明,現(xiàn)代漢語拓?fù)浣Y(jié)構(gòu)的光譜行為(spectral behavior)在演化過程中具有一致性。ARRUDA 等[23]提 出 一 種 基 于 段 落(paragraphbased)的文本表示方法,利用此方法揭示了真實(shí)的文本具有較強(qiáng)的社團(tuán)結(jié)構(gòu)特性。通過構(gòu)建語言的語義網(wǎng)絡(luò)、句法網(wǎng)絡(luò)、概念網(wǎng)絡(luò)、信息網(wǎng)絡(luò)以及社會(huì)網(wǎng)絡(luò)可揭示人類的認(rèn)知系統(tǒng)[24]。SIZEMORE 等[25]通過構(gòu)建語義特征網(wǎng)絡(luò)探索知識(shí)鴻溝(knowledge gaps)問題,并揭示語義特征網(wǎng)絡(luò)在語言學(xué)習(xí)過程中的重要性。HAGOORT[26]從多重腦網(wǎng)絡(luò)的角度揭示了人類處理語言的過程。

未識(shí)甲骨字的語義預(yù)測(cè)是目前甲骨學(xué)研究中面臨的重要問題和難題。雖然計(jì)算機(jī)技術(shù)輔助的甲骨學(xué)研究取得了一些進(jìn)展,但要預(yù)測(cè)未識(shí)甲骨字的語義還很遠(yuǎn)。為了解決以上問題,本文從系統(tǒng)的角度對(duì)未識(shí)甲骨字進(jìn)行研究。首先,利用甲骨文拓片數(shù)據(jù)構(gòu)建了甲骨字網(wǎng)絡(luò);其次,對(duì)未識(shí)甲骨字在網(wǎng)絡(luò)上的重要性、信息豐富度、閉合性進(jìn)行研究;最后,結(jié)合網(wǎng)絡(luò)特性和拓片的上下文語境對(duì)未識(shí)甲骨字的場(chǎng)景語義進(jìn)行了預(yù)測(cè)。

1 甲骨字網(wǎng)絡(luò)的構(gòu)建

為了分析未識(shí)和已識(shí)甲骨字在網(wǎng)絡(luò)上的不同特征,需要構(gòu)建甲骨字網(wǎng)絡(luò)。本文以甲骨拓片為基礎(chǔ)數(shù)據(jù),并利用文獻(xiàn)[13]中的方法構(gòu)建甲骨字網(wǎng)絡(luò),即網(wǎng)絡(luò)矩陣M。此方法共包含3 個(gè)步驟。第1,選定一片甲骨拓片,假設(shè)此拓片上有2 個(gè)甲骨字i 和j,則可用式(1)和式(2)定義甲骨字i 和j 之間的距離wij,并將wij值賦予Mij處。在式(1)中,int eral 的值可用式(2)計(jì)算:如果2 個(gè)甲骨字之間沒有殘缺的字(由于年代久遠(yuǎn),甲骨拓片中的甲骨字可能出現(xiàn)脫落),li和lj表示甲骨字i 和j 在拓片中的位置,并且字j 在字i 的后面,那么int eral 的值為lj-li;如果甲骨字i 和j之間有殘缺的甲骨字,那么int eral 的值有兩部分組成,其中一部分為β,表示殘缺甲骨字之間的距離,在本文中,設(shè)置為2。第2,如果2 個(gè)甲骨字在不同的拓片上同時(shí)出現(xiàn),分別計(jì)算這2 個(gè)甲骨字在不同拓片上的相似性距離,相加后賦予相似性矩陣對(duì)應(yīng)的位置。第3,根據(jù)71 455 片拓片,得到6 199 個(gè)甲骨字(包含甲骨異體字)之間的相似性矩陣,此矩陣共包含160 964 條邊。

2 未識(shí)甲骨字特性定義

為破譯未識(shí)甲骨字的語義,需要對(duì)已識(shí)和未識(shí)甲骨字的網(wǎng)絡(luò)特性進(jìn)行分析,并利用已識(shí)甲骨字的特性指導(dǎo)未識(shí)甲骨字的考釋。本文以甲骨字網(wǎng)絡(luò)為基礎(chǔ)數(shù)據(jù),對(duì)已識(shí)和未識(shí)甲骨字在網(wǎng)絡(luò)上的重要性、信息豐富度、考釋難易程度進(jìn)行詳細(xì)分析,進(jìn)而為未識(shí)甲骨字的考釋提供方法指導(dǎo)。

2.1 介數(shù)中心性

首先對(duì)未識(shí)甲骨字是否值得進(jìn)一步研究進(jìn)行探索。由于本文使用甲骨字網(wǎng)絡(luò)抽象甲骨文系統(tǒng),因此,需要對(duì)未識(shí)甲骨字在甲骨字網(wǎng)絡(luò)中對(duì)應(yīng)結(jié)點(diǎn)的重要性進(jìn)行研究。在復(fù)雜網(wǎng)絡(luò)中,介數(shù)中心性(betweenness centrality, BC)是結(jié)點(diǎn)重要性的一種指標(biāo)[27],以經(jīng)過某個(gè)結(jié)點(diǎn)的最短路徑數(shù)目來刻畫結(jié)點(diǎn)的重要性:

其中,gst表示從結(jié)點(diǎn)s 到結(jié)點(diǎn)t 的最短路徑數(shù)目,nist為從結(jié)點(diǎn)s 到結(jié)點(diǎn)t 的gst條最短路徑中經(jīng)過結(jié)點(diǎn)i 的最短路徑數(shù)目。

2.2 結(jié)點(diǎn)的強(qiáng)度和度

拓片是甲骨文字系統(tǒng)存在最為有力的載體,也是計(jì)算甲骨學(xué)家能夠獲取的最直觀的數(shù)據(jù),它構(gòu)成了甲骨文系統(tǒng)的基本語義單元。甲骨文拓片中字與字之間的相互關(guān)聯(lián)信息是預(yù)測(cè)未識(shí)甲骨字的重要信息。本文構(gòu)建的甲骨字網(wǎng)絡(luò)以原始拓片為基礎(chǔ)數(shù)據(jù),通過抽象同一拓片中字(i)與字(j)之間的前后順序定義它們之間的距離,而字i 和j 之間的權(quán)重通過它們?cè)诓煌仄行纬傻木嚯x疊加得到。因此,構(gòu)建的甲骨字網(wǎng)絡(luò)不僅能反映字與字之間的語境信息,而且能反映字與字之間在不同拓片中出現(xiàn)的次數(shù)。

如果一個(gè)未識(shí)甲骨字在不同拓片中出現(xiàn)次數(shù)較多,并且所在拓片含有的甲骨字較多,那么,此未識(shí)甲骨字因其在甲骨文系統(tǒng)中包含的信息較豐富,其語義被預(yù)測(cè)的可能性較大。在甲骨字網(wǎng)絡(luò)中,未識(shí)甲骨字的信息豐富度表現(xiàn)為結(jié)點(diǎn)(i)的強(qiáng)度(S,式(4))和與此結(jié)點(diǎn)相連且權(quán)重大于0 的個(gè)數(shù)(U,式(5))。

式(4)和(5)中,N 表示網(wǎng)絡(luò)矩陣M 的結(jié)點(diǎn)數(shù),wij表示結(jié)點(diǎn)i 和j 之間的權(quán)重值。當(dāng)wij大于0 時(shí),δ 取值為1,否則取值為0。

2.3 未識(shí)甲骨字的閉合系數(shù)

在2.2 節(jié)中,分析了一個(gè)甲骨字與其他甲骨字之間在不同拓片出現(xiàn)的情況(U 值)以及不同拓片同時(shí)出現(xiàn)的強(qiáng)度(S 值),這些結(jié)果為破譯未識(shí)甲骨字的語義提供了重要的信息。但是這些信息只是從模糊的角度反映未識(shí)甲骨字語義推理的重要性。如,一個(gè)未識(shí)甲骨字(i)有較大的S 和U 值,而與字i 相連的都是未識(shí)甲骨字(可標(biāo)記為[i1,i2,…,in])。由于甲骨字[i1,i2,…,in]的語義是未知的,因此也無法從[i1,i2,…,in]中獲取有用信息進(jìn)而預(yù)測(cè)i 字的語義。同樣,對(duì)于一個(gè)具有較大S 和U 值的已識(shí)甲骨字j,與j 字相連的都是已識(shí)甲骨字(可標(biāo)記為[ j1,j2,…,jm]),那么j 字也無法為破譯未識(shí)甲骨字提供有用信息。這種現(xiàn)象稱為甲骨字的閉合性(見式(6)和圖1)。

式(6)中,Ci表示甲骨字i 的閉合系數(shù),Nn和Un分別表示已識(shí)和未識(shí)甲骨字的個(gè)數(shù),wih和wik分別表示甲骨字i 與已識(shí)和未識(shí)甲骨字連接的權(quán)重。由于連接的權(quán)重和值較大,對(duì)其取對(duì)數(shù)。

圖1 閉合系數(shù)計(jì)算示意圖Fig.1 An example to calculate closed coefficient

一個(gè)未識(shí)甲骨字的閉合性的絕對(duì)值越大,被破譯的可能性越?。欢粋€(gè)已識(shí)甲骨字的閉合性值越大,此字為破譯其他未識(shí)甲骨字提供的信息就越少。從式(6)中可以推斷,如果一個(gè)未識(shí)甲骨字i 與其他已識(shí)甲骨字連接的權(quán)重越小,而與其他未識(shí)甲骨字連接的權(quán)重越大,Ci的負(fù)值就越小,|Ci|絕對(duì)值就越大;如果一個(gè)已識(shí)甲骨字j 與其他已識(shí)甲骨字連接的權(quán)重越大、而與其他未識(shí)甲骨字連接的權(quán)重越小,Cj的值就越大??傊?,在甲骨文字系統(tǒng)中,如果已識(shí)甲骨字的Cj值和未識(shí)甲骨字的|Ci|值較大,對(duì)破譯未識(shí)甲骨字語義的困難就越大。對(duì)于一個(gè)未識(shí)甲骨字i,如果它的Ci值越大,說明此字與已識(shí)甲骨字連接較為緊密,可用信息越多,破譯的可能性越大。

在圖1 中,與甲骨字1 相連的甲骨字共有5 個(gè),分別為甲骨字2,3,4,5,6,它們與甲骨字1 的權(quán)重分別為30,90,60,20,10,如果甲骨字2,3,4 為已識(shí)甲骨字,甲骨字5,6 為未識(shí)甲骨字,那么甲骨字1 的閉合系數(shù)C1為

3 實(shí)驗(yàn)結(jié)果分析與討論

3.1 未識(shí)甲骨字的重要性

為計(jì)算未識(shí)甲骨字在甲骨字網(wǎng)絡(luò)中的重要性,首先計(jì)算所有甲骨字的介數(shù)中心性(式(3));然后,對(duì)所有甲骨字的介數(shù)中心性值進(jìn)行排序,排序后的結(jié)果為SBC;最后,選出排名前NS的結(jié)點(diǎn),計(jì)算NS中未識(shí)甲骨字所占比例PS:

式(7)中,當(dāng)甲骨字i 為未識(shí)字時(shí),θ 取值為1,否則取值為0。

圖2表示的是當(dāng)Ns=[50,100,200,…,1500,1600]時(shí)(由于已識(shí)甲骨字的個(gè)數(shù)為1 602,所以NS的最大值設(shè)置為1 600),未識(shí)甲骨字在BC 值上的PS值。從圖2 中可以看到,當(dāng)NS=50 時(shí),PS在BC 上的值為10%,即前50 個(gè)甲骨字中,僅有5 個(gè)字是未識(shí)甲骨字;當(dāng)NS=100 時(shí),PS在BC 上的值為13%,即前100 個(gè)甲骨字中,僅有13 個(gè)字是未識(shí)甲骨字。隨著NS值的增大,PS值也逐步增大。當(dāng)NS=1 600 時(shí),PS值為52.06%,其結(jié)果意味著未識(shí)甲骨字的重要性甚至大于已識(shí)甲骨字。因此,未識(shí)甲骨字語義預(yù)測(cè)對(duì)重新認(rèn)識(shí)甲骨文系統(tǒng)、殷商文化和古代史都有重要意義。

圖2 未識(shí)甲骨字在BC 值上的PSFig.2 The values of PS of unknown oracle characters on BC

3.2 未識(shí)甲骨字的信息豐富度

未識(shí)甲骨字的信息豐富度是語義預(yù)測(cè)的直接依據(jù)。依據(jù)S(式(4))和U(式(5))的定義,分析未識(shí)甲骨字的信息豐富度:第1,計(jì)算所有結(jié)點(diǎn)的S 和U值;第2,對(duì)結(jié)點(diǎn)的S 和U 值進(jìn)行排序,取出排名前NS個(gè)結(jié)點(diǎn),計(jì)算NS中未識(shí)甲骨字所在的比例PS(式(7) ) 。 圖 3 表 示 的 是 當(dāng) Ns=[50,100,200,…,1500,1600]時(shí),未識(shí)甲骨字在值S(圖3A)和U(圖3B)上的PS值。從圖3 中可以看到,當(dāng)NS=50 時(shí),PS在S 上的值為10%,即前50 個(gè)甲骨字中,僅有5 個(gè)是未識(shí)甲骨字;當(dāng)NS=100 時(shí),PS在S 上的值為17%,即前100 個(gè)甲骨字中,僅有17個(gè)是未識(shí)甲骨字。隨著NS值的增大,PS值也逐漸增大??梢钥吹剑坠亲值腟 值越大,其語義被破譯的可能性就越大。對(duì)于U 值,隨著NS值的增大,PS值也逐漸增大。如,當(dāng)NS=50 時(shí),PS在S 上的值為6%,即前50 個(gè)甲骨字中,僅有3 個(gè)是未識(shí)甲骨字;當(dāng)NS=100 時(shí),PS在S 上 的 值 為12%,即 前100 個(gè) 甲骨字中,僅有12 個(gè)是未識(shí)甲骨字。從U 值中可以看到,與S 值相比,U 值在破譯甲骨字語義上起更重要的作用。綜上,甲骨字的信息豐富度在預(yù)測(cè)甲骨字語義上具有重要的支持作用,而一些未識(shí)甲骨字(具有較大的S 和U 值)的可用信息足以預(yù)測(cè)其語義。

圖3 未識(shí)甲骨字在S 和U 值上的PSFig.3 The values of PS of unknown oracle characters on S and U

3.3 未識(shí)甲骨字的考釋難易程度

閉合系數(shù)(式(6),C)可以定義未識(shí)甲骨字的考釋難易程度,即未識(shí)甲骨字的閉合系數(shù)越大,此字的語義被破譯的可能性越大。考釋難易程度有助于解決首先預(yù)測(cè)那些未識(shí)甲骨字的語義問題。圖4 給出了已識(shí)甲骨字和未識(shí)甲骨字的C 值。需要注意的是,在計(jì)算C 值時(shí),如果分子和分母其中一項(xiàng)為0,不計(jì)算此字的C 值。通過篩選,共得到已識(shí)甲骨字1 397 個(gè),未識(shí)甲骨字3 367 個(gè)。從圖中以看到,對(duì)于已識(shí)甲骨字,有2.79%(共39 個(gè),見表1)的甲骨字C值小于0,即這些甲骨字與未識(shí)甲骨字連接緊密;有0.21%(共3 個(gè))的C 值等于0,說明這些甲骨字與已識(shí)甲骨字和未識(shí)甲骨字連接的權(quán)重相等。而C 值較大(大于4)的甲骨字僅占到所有已識(shí)甲骨字的5.94%(共83 個(gè)),大部分(91.05%,共1 272 個(gè)甲骨字)已識(shí)甲骨字的C 值分布在0 ~4。

通過以上分析可知,已識(shí)甲骨字并沒有較強(qiáng)的閉合性,可以為未識(shí)甲骨字語義的預(yù)測(cè)提供重要的可用信息。對(duì)于未識(shí)甲骨字,C 值小于等于0 的共有234 個(gè)(見表1),而C 值分布在0 ~4 的共有2 863個(gè)(占85.03%)。與已識(shí)甲骨字連接緊密而與未識(shí)甲骨字連接稀疏(即C 值大于4)的未識(shí)甲骨共有270 個(gè)。與已識(shí)甲骨字一樣,未識(shí)甲骨字的閉合性較弱,這為預(yù)測(cè)未識(shí)甲骨字的語義提供了重要的理論和數(shù)據(jù)依據(jù)。特別是對(duì)于具有較大C 值的270 個(gè)未識(shí)甲骨字,是需要破譯的首要目標(biāo)。

圖4 已識(shí)和未識(shí)甲骨字的C 值Fig.4 The values of C of known and unknown oracle characters

表1 不同C 值的已識(shí)和未識(shí)甲骨字的個(gè)數(shù)和占比Table 1 The number and percentage of known and unknown oracle characters on different values of C

閉合性為首先預(yù)測(cè)那些未識(shí)甲骨字的語義提供了重要的數(shù)據(jù)支持,因?yàn)檫@些未識(shí)甲骨字與已識(shí)甲骨字緊密相連,且在不同的拓片中多次出現(xiàn),并構(gòu)成相對(duì)完整的語義單元。更進(jìn)一步,對(duì)已識(shí)甲骨字(連接性甲骨字和非連接性甲骨字)進(jìn)行模糊分類。連接性甲骨字在拓片中起“連接”的作用,如“卜”字的出現(xiàn),表明此拓片用于占卜,對(duì)于預(yù)測(cè)未識(shí)甲骨字的語義提供的信息較少。另外,“卜”字在所有的拓片中共出現(xiàn)了至少20 375 次[13],能夠提供可用信息非常少。由于這些甲骨字有較高的U 值,因此,去掉U 值排名前100 的甲骨字,然后計(jì)算已識(shí)和未識(shí)甲骨字的閉合性C。圖5 給出了已識(shí)和未識(shí)甲骨字的閉合系數(shù)。從圖5 中可看到:(1)沒有出現(xiàn)有較高C值的已識(shí)甲骨字,(2)沒有出現(xiàn)具有較高|Ci|值的未識(shí)甲骨字。因此,已識(shí)和未識(shí)甲骨字都不具有很強(qiáng)的閉合性,可以利用已有的拓片數(shù)據(jù)信息預(yù)測(cè)未識(shí)甲骨字的語義。

圖5 篩選連接性甲骨字后的已識(shí)和未識(shí)甲骨字的閉合系數(shù)Fig.5 The closed coefficient of known and unknown oracle characters by selecting linked oracle characters

3.4 未識(shí)甲骨字的場(chǎng)景語義預(yù)測(cè)

通過對(duì)未識(shí)甲骨字的特征分析可知,如果一個(gè)未識(shí)甲骨字的介數(shù)中心性、強(qiáng)度和度以及閉合系數(shù)有較大的值,那么此字的場(chǎng)景語義最有可能被破譯。依據(jù)此結(jié)論,對(duì)未識(shí)甲骨字(標(biāo)記為P,此字的介數(shù)中心性、強(qiáng)度和度以及閉合系數(shù)值較大)(異形體為,,)的場(chǎng)景語義進(jìn)行預(yù)測(cè)。為了充分利用甲骨拓片的上下文信息,首先,對(duì)未識(shí)甲骨字P 的前置甲骨字B 出現(xiàn)的次數(shù)FB(式(8))、間隔前置甲骨字Bi出現(xiàn)的次數(shù)FBi(式(9))、后置甲骨字A 出現(xiàn)的次數(shù)FA(式(10))、間隔后置甲骨字Ai出現(xiàn)的次數(shù)FAi(式(11))進(jìn)行計(jì)算。

式(8)~(11)中,TN表示所有甲骨拓片的個(gè)數(shù),當(dāng)wPB和wPA值為10 時(shí)(可由式(1)和(2)推理),γB和γA取為1,否則取為0。當(dāng)wPBi和wPAi值為時(shí)(可由式(1)和(2)推理),γBi和γAi取為1,否則取為0。

然后,對(duì)FB、FBi、FA、FAi進(jìn)行排序;第3,在篩選B、Bi、A、Ai為已識(shí)甲骨字的情況下,計(jì)算FB、FBi、FA、FAi的值。通過計(jì) 算發(fā)現(xiàn),當(dāng)FB為1 889(最大值)時(shí),甲骨字B 為(簡(jiǎn)體字為受),說明甲骨字P與B 經(jīng)常聯(lián)合出現(xiàn)。根據(jù)甲骨文語法知識(shí)[28],甲骨字B 后應(yīng)與名詞聯(lián)合使用。因此,推測(cè)未識(shí)甲骨字P 的詞性應(yīng)為名詞。進(jìn)一步對(duì)FA進(jìn)行分析,當(dāng)FA為最大(1 676)時(shí),甲骨字A 為(簡(jiǎn)體字為于)。同樣,根據(jù)甲骨文語法知識(shí)知,的前面經(jīng)常與名詞連用,因此,推測(cè)未識(shí)甲骨字P 詞性為名詞。

為了預(yù)測(cè)未識(shí)甲骨字P 的場(chǎng)景語義,對(duì)FB值的前置甲骨字B 做進(jìn)一步分析,當(dāng)FB=531 時(shí),前置甲骨字B 為(簡(jiǎn)體字為牢)。字在甲骨文系統(tǒng)中用來表示圈起來飼養(yǎng)家禽[29]。那么,字是否與家禽以及一些動(dòng)物有關(guān)?接下來,通過擴(kuò)大P 字的搜索范圍,即計(jì)算P 的后置甲骨字FA和間隔后置甲骨字FAi。當(dāng)FA=FAi=455 時(shí),P 字后置甲骨字為一(簡(jiǎn)體字為一)、間隔后置甲骨字為(簡(jiǎn)體字為牛);不僅如此,P 字也經(jīng)常(FA=241)和甲骨字二(簡(jiǎn)體字為二)共同出現(xiàn)。P 字和一定數(shù)量的家禽共同使用(或出現(xiàn)),由此推斷P()字為參與“祭祀”場(chǎng)景的描述。為了驗(yàn)證推斷的正確性,進(jìn)一步對(duì)未識(shí)甲骨字P 的間隔后置甲骨字進(jìn)行分析,當(dāng)FAi=336時(shí),P 字和甲骨字(簡(jiǎn)體字為祖)共同出現(xiàn)。通過分析,預(yù)測(cè)未識(shí)甲骨字P 用于“祭祀祖先”場(chǎng)景語義的描述。不僅如此,未識(shí)甲骨字P 和后置甲骨字(簡(jiǎn)體字為疾)聯(lián)合使用(FA=226)。以上情況說明,未識(shí)甲骨字主要用于描述“祭祀祖先”的場(chǎng)景,并在祭祀的同時(shí)祈禱先人保佑后人健康。

4 結(jié) 論

甲骨文是地下出土中我國(guó)最早的成文古典文獻(xiàn)遺產(chǎn),是漢字漢語的鼻祖,承載著真正的中華基因。對(duì)未識(shí)甲骨字的考釋是甲骨學(xué)研究的最主要內(nèi)容,可以廣泛推動(dòng)甲骨學(xué)的發(fā)展。然而,現(xiàn)有計(jì)算機(jī)技術(shù)輔助的研究方法無法進(jìn)一步破譯未識(shí)甲骨字的語義。為了破譯未識(shí)甲骨字的語義,本文以甲骨拓片為基礎(chǔ)數(shù)據(jù),首先,通過抽象甲骨文字在拓片中的上下文語境構(gòu)建甲骨字網(wǎng)絡(luò);然后,在甲骨字網(wǎng)絡(luò)之上,分析未識(shí)甲骨字的重要性、信息豐富度、閉合性等特性,為預(yù)測(cè)未識(shí)甲骨字的場(chǎng)景語義提供理論依據(jù);最后,根據(jù)網(wǎng)絡(luò)特性和甲骨拓片的上下文語境預(yù)測(cè)未識(shí)甲骨字的場(chǎng)景語義。本文的研究可為用計(jì)算機(jī)技術(shù)破譯未識(shí)甲骨字的語義提供研究思路。但尚有很多問題需要改進(jìn):第1,構(gòu)建的甲骨字網(wǎng)絡(luò)不完備。現(xiàn)有的甲骨拓片約有15 萬片,而文中僅使用了約7.1 萬片。甲骨拓片的不足會(huì)嚴(yán)重影響甲骨字網(wǎng)絡(luò)的完備性,而甲骨字網(wǎng)絡(luò)的不完備會(huì)降低語義預(yù)測(cè)的正確率;第2,使用文中方法預(yù)測(cè)的未識(shí)甲骨字語義是模糊的,還不能精準(zhǔn)預(yù)測(cè)其語義,即找到與現(xiàn)代漢字的映射關(guān)系;第3,提出的未識(shí)甲骨字預(yù)測(cè)方法是半自動(dòng)化的計(jì)算機(jī)輔助方法。甲骨字與甲骨字之間的語義推理需要甲骨學(xué)家、古文字學(xué)家的參與,無法智能地完成場(chǎng)景語義的預(yù)測(cè)。這種半自動(dòng)化的計(jì)算機(jī)輔助預(yù)測(cè)模型并不理想。

為了克服文中方法的缺點(diǎn),今后的研究將從以下兩個(gè)方面對(duì)計(jì)算機(jī)輔助的甲骨字語義預(yù)測(cè)做改進(jìn)。首先,收集文中未使用的甲骨拓片(約8 萬片),建立完備的甲骨字網(wǎng)絡(luò),提高語義預(yù)測(cè)的正確率。其次,利用機(jī)器學(xué)習(xí)、人工智能等最新算法,設(shè)計(jì)更加智能的未識(shí)甲骨字語義預(yù)測(cè)模型,如神經(jīng)網(wǎng)絡(luò)及其衍生方法:卷積神經(jīng)網(wǎng)絡(luò)(conventional neural network, CNN)[30]、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[31-32]、圖 卷 積 神 經(jīng) 網(wǎng) 絡(luò)(graph conventional neural network,GCNN)[33]等。其 中遞歸神經(jīng)網(wǎng)絡(luò)及其衍生的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory network, LSTM)[34-35]由于其良好的記憶功能已被廣泛應(yīng)用于自然語言處理,特別是語言模型中的上下文殘缺詞的推理;而圖卷積神經(jīng)網(wǎng)絡(luò)在處理圖(graph)(或稱為網(wǎng)絡(luò))數(shù)據(jù)方面具有高效性能,使其成為神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域最活躍的分支[36]。在今后的研究中,筆者將使用圖卷積神經(jīng)網(wǎng)絡(luò)處理甲骨字網(wǎng)絡(luò)(或稱甲骨字圖),并結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)標(biāo)注未識(shí)甲骨字的語義,進(jìn)而減少預(yù)測(cè)模型的人工干預(yù),推動(dòng)計(jì)算機(jī)技術(shù)輔助的未識(shí)甲骨字語義預(yù)測(cè)的進(jìn)展。

猜你喜歡
拓片甲骨結(jié)點(diǎn)
LEACH 算法應(yīng)用于礦井無線通信的路由算法研究
《韋洽墓志》拓片
五代南漢李紓墓志拓片
基于八數(shù)碼問題的搜索算法的研究
字溯甲骨?文承龍韻
北宋《曲行殷墓志》拓片
拓片制作中的用墨技巧
說甲骨新綴所見的“南孟”與“奠子方”
甲骨釋字四則
刻在甲骨上的愛情