施洪貞,李順良,羅新磊
(云南民族大學 電氣信息工程學院,云南 昆明 650500)
白語目前被視作為無文字少數(shù)民族語言的代表之一,是“洱海文化”的主要載體.近年來白語漢化現(xiàn)象越來越突出,主觀上講大理白族生性包容開放,積極吸收漢文化和周邊少數(shù)民族的文化;客觀上講歷史上政權更迭,不同民族文化交織,使得大理白語漢化現(xiàn)象由來已久[1-4].2008年周錦國等[5]在白族人口比例最大的大理劍川縣(白族占總?cè)丝?1.43%)抽樣調(diào)查,發(fā)現(xiàn)2 000個白語基本詞中有107個漢語借詞.2013年羅遞等[6]在劍川縣民族中學調(diào)查白語使用情況,在漢文化的影響下,普通話的主導地位已經(jīng)深入白族學生的心里.2012年趙金燦等[7]在大理市和鶴慶縣選取了3個白族聚居的村落,總計86戶430人,其中白族人數(shù)420,對以上人員進行白語使用情況調(diào)查發(fā)現(xiàn),不會方言的僅占12.3%,不會普通話的占43%.2015年張萬君等[8]在劍川石龍村小學調(diào)查兒童白語使用情況,數(shù)據(jù)顯示參與調(diào)查學生中只有44.4%的學生喜歡說白語也喜歡聽別人說白語.張穎等[9]在大理周城村對495名村民進行問卷調(diào)查發(fā)現(xiàn),在漢文化和旅游業(yè)影響下,越來越多的村民開始學習漢語甚至英語,白語能力逐漸衰退,主要表現(xiàn)在數(shù)詞量詞、計量單位等不常用的詞匯.以上學者的調(diào)研已經(jīng)證實白語弱化、漢化,多語混用現(xiàn)象在大理已經(jīng)十分普遍.然而,白族的文化習俗、民族風俗、大量的文學藝術作品絕大多數(shù)依靠白語口耳代代相傳流傳至今.因此作為白族文化的重要載體,白語的保護和傳承需要各方的努力.
早年間,人文社科學者對白語的保護做了大量工作,著有《白族文字方案》(草案)、《白文拼音讀本》、《白漢詞典》對白語的傳承和保護功不可沒.近年來,李超[10]提議由政府主導從大眾傳媒、白語師資、白語傳習所等方面給白語傳承提供基礎保障.楊健等[11]建立了面向語音識別和語音合成應用的白族語音語料庫.通過檢索中國知網(wǎng)發(fā)現(xiàn),目前白語的研究主要圍繞語系、語音、使用情況等方面,而探索白語數(shù)字化保護的文章相對較少,因此本文基于趙衍蓀、徐琳編著的《白漢詞典》,從數(shù)字化方面探索白語傳承和保護.
本文利用最新的OCR技術,將《白漢詞典》轉(zhuǎn)換成機器可讀字典(machine readable dictionary,MRD),建立基于拼音方案的白語文本語料庫,使用計算語言學中的MI值和T值計算白語詞項搭配的可靠性,發(fā)掘白語中的常用典型詞項搭配和低頻固定搭配,為機器翻譯的搭配詞典做準備,有序推進白語數(shù)字化傳承工作.
根據(jù)黃建華等[12]對詞典宏觀結(jié)構(gòu)研究結(jié)論,《白漢詞典》屬于雙語詞典中外向型的教學詞典,該詞典系統(tǒng)地將白語詞素(或稱語素)立為詞目,并且在收詞立目、詞目編排方面應充分考慮外族讀者的特殊需求.林明金等[13]的研究表明詞典的詞目、義項、例證、附錄、詞源、注釋、插圖提供了充分的民族文化信息,尤其文化注釋可以增大雙語詞典的文化信息,《白漢詞典》較為完整地收錄了大理白族語言,對白語的推廣和傳承有不可替代的作用,同時也是研究白族文化的重要資料.這是本文選擇《白漢詞典》作為研究對象的重要因素.詞典的部分節(jié)選如下圖1所示:
可以看出詞典中的白語詞目(head word或entry)由中括號標注,一個空格之后是對應的漢語翻譯,如漢語翻譯中出現(xiàn)注釋用圓括號加以區(qū)別,冒號之后是白語和漢語例句.一詞多義由①②等加以區(qū)分.但是,詞典中并不是所有的詞目遵守這個規(guī)則,有些詞目僅有翻譯,沒有例句.
為了更好的了解詞典的微觀結(jié)構(gòu),本文利用python統(tǒng)計了白語詞條、漢語翻譯、白語例句、漢語例句的數(shù)量,結(jié)果如表1所示,由于一詞多義使得漢語翻譯詞條多于白語詞條;白漢例句數(shù)量相同;本文利用最新的OCR技術將詞典轉(zhuǎn)換成機器可讀字典(MRD)之后,還邀請了若干白族同胞對RMD進行校對,確保文本的正確性,詞典微觀結(jié)構(gòu)分析也再次證實了文本的可靠性.
表1 《白漢詞典》微觀結(jié)構(gòu)
基于可靠的文本語料,本文重點研究白語中的詞項搭配強弱.在機器翻譯系統(tǒng)中,強搭配詞項不能僅僅依據(jù)句法和語義的規(guī)律進行逐字逐句地翻譯.雙語(或多語)搭配詞典是機器翻譯系統(tǒng)必不可少的配置.Bali等[14]提出詞項搭配的辨別在很多研究領域中扮演非常重要的作用,比如在文本挖掘、自動摘要、機器翻譯以及信息檢索等方面,詞項搭配的強弱判決直接關乎到系統(tǒng)的最終性能.目前計算語言學中常用互信息(mutual information,MI)和零假設T檢驗值(T值)定量分析詞項搭配強弱.
MI值用于測量中心詞(node word)和其搭配詞之間的相互關聯(lián)程度(association strength).Metzler等[15]將詞項間的依賴關系分為順序依賴關系,獨立依賴關系,全依賴關系.順序依賴假設相鄰詞項間存在依賴關系,并且依賴關系是順序依賴,中心詞的出現(xiàn)能給搭配詞的出現(xiàn)帶來一定的信息量;獨立依賴關系指2個詞的出現(xiàn)時完全獨立的;全依賴關系指兩個詞項完全依賴,同時出現(xiàn).另外Church等[16]認為使用MI還可以定量分析語言中的各種有趣現(xiàn)象,比如醫(yī)生/護士這種實詞與實詞之間的語義關系,動詞和介詞之間的詞匯-句法共現(xiàn)偏好等.
根據(jù)信息論,互信息MI(x,y)定義為2個單詞的聯(lián)合概率P(x,y)與邊緣概率P(x)和P(y)進行比較.即:
(1)
假如x和y2個單詞有強關聯(lián)性,聯(lián)合概率P(x,y)將遠大于邊緣概率P(x)和P(y)的乘積,則I(x,y)?0;假如x和y2個單詞是弱關聯(lián)性,那么P(x,y)≈P(x)P(y),則(x,y)≈0.在語言學中,當2個語言成分不能在同一個環(huán)境中出現(xiàn),即處于互補分布,假如x和y是互補分布,那么P(x,y)?P(x)P(y),I(x,y)?0.
在獨立依賴關系中有:
(2)
在全依賴關系中有:
(3)
然而Stubbs[17]提出MI值并不是處處可靠,當中心詞與搭配詞的共現(xiàn)頻數(shù)較小或搭配詞在語料庫中的總頻數(shù)相對較小時, 一般認為小于5,MI值的判別就失去參考意義.為了解決這類問題,在計算時需要考慮中心詞與搭配詞的共現(xiàn)頻數(shù)和搭配詞的獨現(xiàn)頻數(shù),在計算語言學里,T值可以被用于判斷詞項組合關聯(lián)度的置信度[16].
根據(jù)T檢驗統(tǒng)計理論, 假設兩詞項為x和y,在某語料庫中聯(lián)合概率為P(x,y),邊緣概率為P(x)和p(y),那么兩詞項間的T值定義為:
(4)
本文語料來源于趙衍蓀、徐琳編著的《白漢詞典》,該詞典于1996年4月由四川民族出版社出版,本文采用最新的OCR技術將紙質(zhì)的《白漢詞典》轉(zhuǎn)換成機器可讀字典(Machine Readable Dictionary, MRD).在此基礎上借助于語料檢索工具AntConc和不同的算法進行語料分析.參數(shù)設置方面,在進行語料檢索時主要包含2個參數(shù),分別控制檢索定長、方向.Collier[18]提到“中心詞±4”作為詞項搭配研究的定長(Span),目前已經(jīng)得到許多語料庫語言學家的認可.因此本文定長選取2,4,左右2個方向分別檢索.
馮躍進[19]等認為:一般而言,MI值越大,說明中心詞x對搭配詞y的出現(xiàn)的影響就越大.本文選定語料庫的最高頻次詞”zix”為中心詞(node word),依次向左、右分別以定長4,2檢索中心詞的所有搭配詞(collate),即2L,4L,2R,4R共4次檢索.以定長為2向左(2L)檢索語料庫時,得到中心詞zix的搭配詞共有843個,其中MImax=5.37,MImin=-2.81;以定長為4向左(4L)檢索,發(fā)現(xiàn)”zix”共有1 200個搭配詞,其MI∈[6.37,-1.64].以定長為2向右(2R)檢索語料庫時,共計有879個搭配詞,其中MImax=6.37,dMImin=-2.38;1以定長為4向右(4R)檢索時,”zix”共有1186個搭配詞,dMI∈[6.95,-0.94].表2、表3展示了中心詞”zix”與部分搭配詞y的MI值,其中f(y),f(x,y)分別是搭配詞的獨現(xiàn)頻數(shù)以及中心詞和搭配詞的共現(xiàn)頻數(shù).
以向左檢索為例,2L檢索中,MI(det,zix)=3.66;4L檢索中,MI(det,zix)=4.29;中心詞加”zix”結(jié)尾是白語中一種最典型的合成詞方式,”det”的意思“豆子”,加”zix”結(jié)尾可以構(gòu)成有關豆子的各種合成詞,例如:”det cel zix ”(豌豆),”det xinl zix”(蠶豆),”det kol zix”(豆瓣兒),”det let mox zix ”(干蠶豆葉的第一苗,可煮湯).以向右檢索為例,2R檢索中MI(zix,yvnx)=4.29; 4R檢索中MI(zix,yvnx)=4.56;”zix yvnx”(子女),”zix seit yvnx sort”(兒有女小),在白語合成詞中,在名詞后面加”zix”(子),”yvnx”(女)使名詞具有可愛、可憎、被人蔑視等含義.例如:”yil zix guanl yvnx”(小衣服兒),”cux zix marx yvnx”(草芥,如青草稻草那樣卑微).
表2 左檢索中心詞”zix”與部分搭配詞y的MI值
表3 右檢索中心詞”zix”與部分搭配詞y的MI值
通過以上的例子可以看出,通過互信息(MI)可以有效地找到白語中的常用典型合成詞,這將是將來實現(xiàn)白漢機器翻譯的第1步,然而進一步觀察2L,4L,2R,4R 4次檢索中,MI(xiaot,zix)=MImax.2L=5.37,MI(zvtx,zix)MImax.4L=6.37,MI(zix,heinl)=MImax.2R=5.37,MI(zix,heinl)=MImax.4R=6.95,互信息最大的4個詞組,并不是常見的詞項搭配,只能看成是某一專業(yè)領域的固定搭配.造成這種現(xiàn)象的原因正是中心詞與搭配詞的共現(xiàn)頻數(shù)較低,或者搭配詞獨立出現(xiàn)頻次較低.
由于MI值和T值之間存在著1種互補關系,綜合使用MI值和T值分析詞項搭配更有意義,從統(tǒng)計學的角度看,T值等于1.65是判別兩詞項搭配是否有意義的最低臨界值,然而Church等[16]提出將T值的閾值提高到2.15將更有利于判別詞項搭配強弱.另外Church等[20]通過大量實驗發(fā)現(xiàn),MI值大于3的詞項搭配可靠性更好,因此根據(jù)Church等的成果,將MI值和T值的組合分成以下4種情況:
1)MI<3且T<2.15時,中心詞與搭配詞的組合不是常見搭配;
2)MI≥3且T≥2.15時,中心詞和搭配詞的組合可以被視為常見典型的詞項組合,
3)MI≥3且T<2.15時,如果滿足搭配詞的在語料庫中出現(xiàn)頻次較低,或者是中心詞與搭配詞的共現(xiàn)頻次較低的情況,這樣的詞項組合可能是諺語、專業(yè)術語等固定表達方式,而不是常用搭配.
4)MI<3且T≥2.15時,這種情況往往搭配詞是語法詞,任何一門語言語法詞屬于常見詞項,與語料中的其他詞項共現(xiàn)的頻率較高,故這樣的詞項組合互信息較低.
將中心詞”zix” 根據(jù)上述分類進行統(tǒng)計得到表4,可見第1類隨機搭詞項搭配占比最高,第2類常見典型詞項搭配占比最少,但是共現(xiàn)頻率較高;第3類屬于不常見的固定搭配,共現(xiàn)頻率較低.第4類屬于語法詞項搭配.第2類和第3類的詞組就可以收錄到機器翻譯系統(tǒng)的搭配詞典,提高翻譯準確率.另外,表4的第2列和第3列的小差值是由于第3類詞項搭配不計高頻項造成的.
表4 MI值和T值的4種組合
本文梳理了白語變遷的歷史和研究歷史,再將《白漢詞典》轉(zhuǎn)換成機器可讀字典(machine readable dictionary,MRD),建立了白語的拼音語料庫.再從MI值和T值2個角度分別計算了中心詞與搭配詞的關聯(lián)性和置信度,利用MI值和T值的互補性,建立了詞項搭配分類模型來計算中心詞與搭配詞的搭配強弱,從定量分析和實驗結(jié)果可以看出,本文方法可以有效的從語料庫中找出中心詞的常見搭配和固定搭配,為白漢語言機器翻譯邁出堅實的一步,這很大程度上也推進了白語數(shù)字化保護和白語傳承,同時對于其他少數(shù)民族語言的數(shù)字化保護,本文的研究也是一次有意義的嘗試.