面向拓片信息的甲骨字網(wǎng)絡構建與分析

2018-08-17 08:38焦清局金園園劉永革

中文信息學報 2018年7期

焦清局,高峰,金園園,熊晶,劉永革

(1. 安陽師范學院計算機與信息工程學院，河南安陽 455000；2. 河南省甲骨文信息處理重點實驗室，河南安陽 455000；3. 漢語海外傳播河南省協(xié)同創(chuàng)新中心，河南安陽 455000)

0 引言

甲骨文是一種距今有3 500多年歷史的古漢字，其所記載的內(nèi)容極其豐富，涉及商代社會生活的諸多方面，不僅包括政治、軍事、文化、社會習俗等內(nèi)容，而且涉及天文、歷法等科學技術[1]。對甲骨文進行深入的研究與探討，可以對語言文字學、考古學、歷史學、社會人類學等學科產(chǎn)生深刻的影響，具有重要的文化價值和傳承意義。目前國內(nèi)外共收藏的甲骨片約有15萬片[2](數(shù)字會隨時間的變化而變化，如新出土甲骨片及甲骨片的綴合)，被發(fā)現(xiàn)的甲骨文單字約有4 378個[3](2010年前所見殷墟甲骨字)，但其中可釋者僅為1 682個[3]。因此，考釋字是甲骨文研究的主要任務。一百多年來，經(jīng)過幾代學者的努力，在甲骨文字的考釋方面取得了豐碩的成果[4]。如郭沫若是第一個運用歷史唯物主義研究古文字的人，善于將文字考釋與史料分析相結合，進而研究中國古代社會。他在甲骨文字考釋方面取得了令人矚目的成績。歷史學家唐蘭，他不但考釋出很多難以辨識的甲骨文字，還建立了各種較為完整和系統(tǒng)的研究方法，如對照法、推勘法、偏旁分析法等。其他如董作賓、徐中舒也在甲骨文考釋方面取得了豐碩的成果。然而，純?nèi)斯さ匮芯考坠俏囊泊嬖谠S多缺陷：①專家們對甲骨文的辨識和翻譯只能依賴于長期的學術鉆研和經(jīng)驗累積，而且培養(yǎng)一名甲骨文專家是無法速成的，往往需要一二十年甚至更長的時間[1]； ②甲骨文字之間不是孤立存在的，它們之間相互聯(lián)系和作用，從而形成一個成熟的文字系統(tǒng)。然而，歷史學家研究甲骨文的考釋時，只是孤立的研究，并不能從系統(tǒng)的角度揭示甲骨文字的場景和語義。

隨著對甲骨文的深入研究和其材料的數(shù)字化，甲骨文的數(shù)據(jù)已體現(xiàn)出海量化和系統(tǒng)化[5]，這為使用計算機技術研究甲骨文提供了數(shù)據(jù)上的保障。甲骨文的研究也漸漸進入了以計算機研究和人工研究相輔相成的時代。為了解決甲骨文資料庫的缺陷，2007年，劉永革開發(fā)了甲骨文字的編輯軟件[6]。甲骨文字編輯軟件對甲骨文字的可視化研究開創(chuàng)了一種資料編輯的新方法，也為國內(nèi)外的甲骨文學者們之間的相互交流提供了一個新的平臺。2008年，顧紹通等人對計算機中如何輸入甲骨文字也做出重要研究[7]: 首先對甲骨文字形進行深入研究之后發(fā)現(xiàn)，甲骨文的字形具有一定的規(guī)律。通過對《殷墟甲骨刻辭類纂》中收錄的甲骨文字形的拓撲結構進行深入分析之后，整理出了569個甲骨文字的偏旁部首。再把這569個偏旁部首分別配置到標準鍵盤的26個英文字母上之后，通過拆分取碼和現(xiàn)代漢字的拼音方法，使用標準鍵盤即可輸入3 673個甲骨文字(包含異體字合文)。甲骨文字輸入法的問世對甲骨文字的數(shù)字化、展示、有效保護和方便使用，具有非常重要的現(xiàn)實意義。2013年，酆格斐等人通過對原始拓片的預處理，并結合數(shù)學形態(tài)學方法提出12項指標描述甲骨字特征，這些特征較好地反映了甲骨文字的筆畫形態(tài)和結構[8]。2014年，安陽師范學院的高峰對諸多甲骨文語義進行研究后，構建了一個甲骨文領域的語義詞典系統(tǒng)[9]。作者通過不斷地對國內(nèi)外甲骨文語義詞典的對比研究后，從其特點出發(fā)，對甲骨文語料中的原材料進行了精細的加工處理，并在甲骨文語義分類的基礎上對實詞做出了很多屬性描述，并建立了計算機的半自動化輔助加工模塊，用來服務于甲骨文輔助機器的翻譯和考釋工作。2014年，熊晶以許多甲骨文學家建立的甲骨文字庫為基礎，提出一種計算機輔助翻譯甲骨文的方法[10]。2016年，中山大學、北京微軟研究院以及瑞士日內(nèi)瓦大學的研究人員通過圖像處理的方式識別甲骨字[11]。2016年，德國馬克斯普朗克研究所和上海大學的研究人員構建了有關動物甲骨字的認知網(wǎng)絡[12]。雖然一些計算機學家在研究甲骨文方面取得了顯著的成績，但是還存在一些問題需要繼續(xù)深入研究。如現(xiàn)有的算法在研究甲骨文字時，并沒有從系統(tǒng)的角度研究，導致使用計算機方法預測未知甲骨文字的語義距離還很遠。不僅如此，現(xiàn)有的計算機方法研究甲骨文時，并沒有考慮甲骨字之間的聯(lián)系對場景和語義的影響。

復雜網(wǎng)絡是描述復雜系統(tǒng)的一種有效工具，語言系統(tǒng)的網(wǎng)絡化抽象為研究語言提供了新的視角和手段[13]。目前，人們已經(jīng)構建了漢語的同現(xiàn)網(wǎng)絡[14]、句法網(wǎng)絡[15]、語義場網(wǎng)絡[16]等。語言網(wǎng)絡的構建及其特征的分析對研究語言系統(tǒng)背后的形成機制和演化規(guī)律具有重要的意義[13]。在本文中，我們使用甲骨拓片信息構建甲骨文字網(wǎng)絡，并對網(wǎng)絡的特性進行詳細分析。本文的研究結果能為歷史學家和網(wǎng)絡甲骨學家揭示未知甲骨字的語義提供新的數(shù)據(jù)和研究思路。

1 甲骨字網(wǎng)絡構建

本文以收集的72 151片甲骨文拓片為研究對象，進而通過建模構建甲骨字網(wǎng)絡。由于甲骨拓片歷史久遠，拓片的損壞比較嚴重。因此，在構建網(wǎng)絡之前，對其進行相應的處理。第一，如果在一個拓片中，字和字之間有殘缺的情況，用省略號代替；第二，除去沒有甲骨字的拓片；最后共得到71 455片甲骨文拓片、6 199個已識和未識甲骨字。

由于甲骨文系統(tǒng)是中國最早的文字系統(tǒng)，語言特性還處于萌芽的狀態(tài)。因此，它和現(xiàn)有的成熟文字系統(tǒng)有很大的區(qū)別: 第一，在甲骨文系統(tǒng)中，同一拓片的甲骨字描述了同一個場景(或稱語義單元)，如，戰(zhàn)爭、天象、婚娶等，但也有可能不同拓片中的甲骨字描述不同時段的場景。第二，在甲骨文系統(tǒng)中，單音節(jié)詞較多，而復音節(jié)詞較少。這也是古文字系統(tǒng)特有的屬性。

為了構建甲骨字網(wǎng)絡，需要定義甲骨字和甲骨字之間的相似性距離。由于甲骨文系統(tǒng)的同一場景或語義單元是以拓片為單位，所以，如果在一個拓片中，兩個甲骨字之間在n階Markov鏈的條件下同時存在，則認為這兩個甲骨字之間應存在一條邊。與劉知遠構建漢語網(wǎng)絡不同[14]，本文中，在兩個甲骨字之間定義了相應的權重。對于同一拓片上的兩個甲骨字(這兩個甲骨字可以是已識或未識)，它們分別用i和j表示，那么這兩個字之間的距離為wij(見公式1)。不僅如此，在n階Markov鏈中n在現(xiàn)代漢語中經(jīng)常取值為2[14]，因為現(xiàn)在的文字系統(tǒng)有大量的詞語。而在甲骨文系統(tǒng)，很少有詞組的出現(xiàn)。因此，在構建網(wǎng)絡時，對于不同拓片，n值選擇為拓片上甲骨字的個數(shù)。

圖1 甲骨字之間距離計算圖

本文使用的構建甲骨字網(wǎng)絡方法具有三個創(chuàng)新點：一是在構建網(wǎng)絡的過程中，充分利用了拓片在甲骨文系統(tǒng)中作為語義單元的信息，即拓片中的甲骨字不論是已識或未識，根據(jù)式(1)～(2)都可以構建它們之間的距離。因此，未識和已識的甲骨字出現(xiàn)在同一個網(wǎng)絡中，這種現(xiàn)象為我們依據(jù)已識的語義信息破譯未識甲骨字提供可能；二是構建網(wǎng)絡的方法體現(xiàn)了甲骨文系統(tǒng)中復音節(jié)詞較少的古文字特征；三是在構建網(wǎng)絡的過程中賦予甲骨字之間相應的權重，利于分析甲骨字之間的同現(xiàn)信息。

2 甲骨字網(wǎng)絡特性分析

為了驗證甲骨字網(wǎng)絡是否具有真實網(wǎng)絡的特性，本文對構建網(wǎng)絡的度分布、局部連接比率、聚類系數(shù)、模塊度等特性進行分析。

2.1 度分布

圖2 甲骨字網(wǎng)絡的度分布

一個節(jié)點的度是此節(jié)點的鄰接節(jié)點的個數(shù)或者是節(jié)點連接邊的個數(shù)。如果我們把節(jié)點度為k的數(shù)目占網(wǎng)絡節(jié)點總數(shù)目的比例記為pk，那么網(wǎng)絡中不同度的統(tǒng)計分布即為度分布[17]。為了方便推斷一個甲骨字在71 455片拓片中同時出現(xiàn)的信息，即一個甲骨字和其鄰接甲骨字共同描述同一個場景或語義單元信息，我們把構建的權重網(wǎng)絡簡化為無權重的網(wǎng)絡，然后計算度分布。在本文構建的網(wǎng)絡中，甲骨字的度表現(xiàn)為甲骨字之間的權重值(或連接邊的個數(shù))，而甲骨字之間權重分布表現(xiàn)為網(wǎng)絡的度分布。圖2給出了未識和已識甲骨字網(wǎng)絡的度分布圖，從圖中我們可以看到甲骨字網(wǎng)絡的度分布符合無標度分布[18](scale-free distribution)，無標度分布意味著網(wǎng)絡中大部分節(jié)點度的取值較小，但是會有少數(shù)節(jié)點度的取值非常大。在甲骨字網(wǎng)絡中的度分布說明: 一方面大部分甲骨字的度值比較小，比如，度值小于10的甲骨字(即此甲骨字有10個相鄰甲骨字)占總甲骨字的比例為76.6%，而度值小于17、50的甲骨字占總甲骨字的比例分別為82.1%、91.1%。在甲骨文字系統(tǒng)中，較小的度值代表描述同一個場景或語義單元所需的甲骨字也較少。另一方面，有少數(shù)的甲骨字有很大的度值，如甲骨字“卜”和“貞”字之間的權重高達203 756，如果假設這兩個甲骨字直接相連，那么“卜”和“貞”在71 455個拓片中至少出現(xiàn)20 375次。不僅如此，“卜”和其他甲骨字的度值也較大。通過相關的文獻我們得知[1]：在甲骨字系統(tǒng)中，單音節(jié)名詞占大多數(shù)；而動詞占少數(shù)，并且在動詞中，祭祀動詞占多數(shù)。“卜”字是常用的動詞，經(jīng)常和其他名詞相連使用，因此，“卜”字具有較大的度值。以上分析也說明我們構建的甲骨字網(wǎng)絡能充分反映甲骨文系統(tǒng)的語言信息。

2.2 局部連接比率

局部連接比率(local-links-rate，LLR)是一種衡量網(wǎng)絡局部特性的指標[19]，如式(3)所示。由于網(wǎng)絡中的邊信息比節(jié)點信息更能反映網(wǎng)絡的各種特性。因此，LLR的定義是基于網(wǎng)絡的連接信息，而不是節(jié)點信息。對網(wǎng)絡中任意一條邊e，被它連接的兩個節(jié)點為n1和n2。首先計算這兩個節(jié)點的共同鄰接節(jié)點(common node，CN)，然后統(tǒng)計共同鄰接節(jié)點之間存在的邊數(shù)(local-links)。最后，計算局部連接比率LLR。圖3給出了計算LLR的實例圖。對于圖3中的一條實線邊，連接它的兩個節(jié)點(中空結點)共享四個節(jié)點(實心節(jié)點)，這四個節(jié)點之間存在三條邊(點形邊)。因此，實線邊的LLR值為3/4。如果一個網(wǎng)絡的平均LLR大于2，那么這個網(wǎng)絡有較強的局部特性[19]。通過計算，甲骨字網(wǎng)絡的LLR值高達26.678 7，說明甲骨字網(wǎng)絡具有很強的局部特性，即描述同一個場景(或語義單元)的甲骨字在甲骨字網(wǎng)絡中相互之間連接的邊較為稠密。

LLR=local-links/CN

(3)

圖3 局部連接比率計算示意圖[19]

2.3 聚類系數(shù)

一個網(wǎng)絡的聚類系數(shù)是網(wǎng)絡中所有節(jié)點聚類系數(shù)的平均值。通過計算，甲骨字網(wǎng)絡的聚類系數(shù)為0.594 4。較高的聚類系數(shù)意味著節(jié)點的鄰接節(jié)點之間存在更高程度的交互關系，即這個節(jié)點和其鄰接節(jié)點更穩(wěn)固地聚集成模塊結構[22]。在甲骨字網(wǎng)絡中，較高的聚類系數(shù)意味著一個甲骨字和其鄰接的甲骨字參與描述同一場景或語義單元的概率較高。

(4)

Ui表示節(jié)點i的鄰接節(jié)點數(shù)，ei表示Ui個鄰接節(jié)點之間存在的邊數(shù)。

圖4 聚類系數(shù)計算示意圖

2.4 模塊度

模塊(module，或稱社團)結構是復雜網(wǎng)絡的一個基本特性，也是復雜網(wǎng)絡研究的重點內(nèi)容。模塊是網(wǎng)絡的一個子集，它要求模塊中節(jié)點之間的邊連接緊密，而不同模塊之間節(jié)點的邊連接稀疏。圖5是一個含有12個節(jié)點和三個模塊的網(wǎng)絡示意圖[23]。模塊內(nèi)的節(jié)點具有相似的屬性，依據(jù)這一特點，模塊結構已在很多領域取得了成功的應用。如在蛋白質相互作用網(wǎng)絡中，功能相似的蛋白質在網(wǎng)絡中往往以模塊的形式存在。因此，通過挖掘模塊結構可以預測未知蛋白質的功能；在人類社會中，人以類聚是模塊結構在社會網(wǎng)絡中的真實反映。社會學家可以利用模塊結構研究人們的心理行為、興趣愛好等。通過構建包含已知和未知語義的甲骨字網(wǎng)絡，在此基礎上分析此網(wǎng)絡是否具有模塊度特性，進而利用模塊內(nèi)結點的屬性，可以預測同一模塊內(nèi)未知甲骨字的語義信息。如在圖5中下方的一個含有五個節(jié)點的模塊中，假如我們已知其中四個甲骨字描述了某種場景信息(如婚娶)，那么根據(jù)模塊結構中節(jié)點具有相同屬性的特性，可以推測剩余一個未知語義的甲骨字也用來描述婚娶信息。

圖5 網(wǎng)絡模塊結構示意圖[23]

模塊度(modularity)[24]不僅是一種用來挖掘網(wǎng)絡中模塊結構的方法，而且是一種用來衡量網(wǎng)絡是否具有模塊結構的標準。雖然基于模塊度的方法具有“分辨率限制”(Resolution limit)的問題[25]，但它仍然被廣泛用于判斷一個網(wǎng)絡是否具有模塊結構的評價標準。對于有權重的網(wǎng)絡，模塊度(Q)的定義如式(5)所示。

(5)

其中，nc是網(wǎng)絡劃分的模塊個數(shù)，W是網(wǎng)絡中所有邊的權值之和，Wv是模塊v內(nèi)部所包含的邊的權重和，Sv是所有與模塊v內(nèi)部的點相關聯(lián)的邊的權重和。利用模塊度方法對甲骨字網(wǎng)絡進行分析，得到的模塊度的值為0.292 1。根據(jù)文獻[26]我們得知，如果一個網(wǎng)絡的模塊度大于等于0.3，說明這個網(wǎng)絡具有很強的模塊特性。另外，從局部連接比率和聚類系數(shù)可以說明我們構建的甲骨字網(wǎng)絡具有較強的局部特性。綜上所述，甲骨字網(wǎng)絡具有良好的模塊結構屬性，這種屬性為我們通過識別模塊結構進而破譯未知甲骨字的語義提供了直接數(shù)據(jù)和理論上的依據(jù)。

3 討論

作為一個新的研究方向，語言網(wǎng)絡正在悄然興起，并取得了一些有意義的結果[27]。本文第一次使用大規(guī)模的拓片信息創(chuàng)新性地構建了甲骨字網(wǎng)絡，其主要表現(xiàn)在以下三個方面：一是構建的網(wǎng)絡充分捕捉了甲骨文系統(tǒng)的語義單元信息；二是構建網(wǎng)絡的方法保留了甲骨文系統(tǒng)單音節(jié)詞多、復音節(jié)詞少的特性；三是構建的網(wǎng)絡中邊權重反映了甲骨字之間的同現(xiàn)關系。

在甲骨字網(wǎng)絡之上，深入研究了網(wǎng)絡的度分布、局部連接比率、聚類系數(shù)和模塊結構特性。本文構建的甲骨字網(wǎng)絡可為網(wǎng)絡甲骨學家和歷史學家預測未知甲骨字的場景和語義提供數(shù)據(jù)支持和直接的研究理論思路。但是，本文還存在一些不足之處需要我們進一步研究: 第一，式(2)中參數(shù)length選取具有不合理性： length表示的是同一拓片上兩個甲骨字之間殘缺字的個數(shù)，因此，length的值不能設置過大。如何利用甲骨文字系統(tǒng)的意義選取length的值是我們需要進一步研究的問題。第二，由于破譯未知甲骨字的語義是甲骨學研究的重要內(nèi)容，因此另外一個不足之處是本文既沒有利用構建的網(wǎng)絡破譯已識甲骨字的一些偏旁部首的可能含義，也沒有依據(jù)已識甲骨字推斷未識甲骨字或其偏旁部首的可能含義。如何設計高效算法推斷未識甲骨字或其偏旁部首的可能含義是我們下一步重點研究的內(nèi)容。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡