拉巴頓珠,歐 珠,2,祖漪清,裴春寶
(1. 西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院 藏文信息技術(shù)研究中心,西藏 拉薩 850000;2. 西藏民族大學(xué),陜西 咸陽 712000;3. 科大訊飛股份有限公司,安徽 合肥 230088)
以往在藏語語音合成技術(shù)方面,人們一直認為合成中藏語讀音問題通過規(guī)則已解決,故目前很少有研究藏語語音合成中由于分詞歧義造成讀音不正確的問題。而藏語合成語音自然度和可懂度的測試結(jié)果表明,在藏語中,音節(jié)的聲母、韻母讀音錯誤不大,但存在聲調(diào)古怪的情況。聲調(diào)讀法不正確往往與詞性判斷不恰當(dāng)有關(guān),而詞性標(biāo)記的不正確來源于分詞的準(zhǔn)確性。讀音不正確不僅使合成語音發(fā)音不自然,甚至?xí)淖冋麄€句子的意思,對文本的可懂度有很大的影響。因此,如何判別其正確的讀音就成為語音合成系統(tǒng)不得不解決的問題[7]。
字-音轉(zhuǎn)換研究,是語音合成系統(tǒng)的前端文本分析的重要模塊,其目的是將文字序列轉(zhuǎn)換成相應(yīng)的音標(biāo)序列。首先對輸入文本進行準(zhǔn)確可行的分析,經(jīng)過預(yù)處理后給語音合成后端提供必要的信息。目前藏語字音轉(zhuǎn)換正確率在很大程度上取決于同形異音詞的讀音識別正確性,而同形異音詞的讀音判斷又取決于藏文自動分詞和詞性預(yù)測的準(zhǔn)確率。目前,漢語、英語等語言中對多音詞消歧方法的研究已有不少[8-11],而對藏語的相關(guān)研究還處于初始階段,甚至到目前為止國內(nèi)外相關(guān)研究學(xué)者對藏語同形異音詞方面未曾有研究工作及相關(guān)報告。
本文分以下幾個方面進行論述: 第一節(jié)詳細介紹了語料庫的來源、數(shù)量及最終實驗數(shù)據(jù)的選取情況;第二節(jié)是藏語同形異音詞的構(gòu)詞研究;第三節(jié)對藏語同形異音詞進行分類;第四節(jié)提出了基于規(guī)則的同形異音詞消歧方法;第五節(jié)對基于規(guī)則的消歧方法的實驗結(jié)果進行了分析;第六節(jié)給出分析的結(jié)論及今后的研究計劃。
1.1.1 語料庫的設(shè)計原則
“語料”收集是進行語音合成的基礎(chǔ)工作,通常的做法是盡可能多地收集大規(guī)模的自然語料來為挑選訓(xùn)練語料和測試數(shù)據(jù)提供支撐。但為了有針對性地研究同形異音詞,需要專門設(shè)計語料。設(shè)計原則是,以盡量少的語料,盡可能多地覆蓋研究對象。
1.1.2 語料來源
本文主要在《西藏日報》藏文版和中國西藏新聞網(wǎng)藏文版等一些不同藏文網(wǎng)站上收集了含有法律、新聞、教育、醫(yī)學(xué)、詩歌、文學(xué)等不同領(lǐng)域中具有代表性的語料共37萬多個相對獨立的句子,同時還考慮了文獻的年代、地域等問題。經(jīng)過自動過濾和人工校對將太長和太短、不完整的句子以及含有不常用的梵文的句子去除后剩28萬多個句子,其中還有一些語料來自詞典中的例句及日常生活中常用的語句,從而形成了原始語料。然后利用貪心(greedy)算法進行篩選,從28萬多原始語料中挑選出含有140個同形異音詞的92 229個句子,并對語料進行反復(fù)的優(yōu)化(包括去重),最終選取最大覆蓋藏語同形異音詞的精煉語料共計35 890句作為訓(xùn)練數(shù)據(jù)及測試集,本文實驗數(shù)據(jù)的具體構(gòu)成情況及數(shù)量統(tǒng)計結(jié)果如圖1所示。
本文收集各種語料時,為了更全面地描述和覆蓋更多的語言現(xiàn)象,根據(jù)語料本身所表達的內(nèi)容不同,我們主要收集整理了不同類別的句子文本。但由于各網(wǎng)站所發(fā)布和關(guān)注的側(cè)重點不同,只利用一個網(wǎng)站無法覆蓋所有類型的語料,因此,語料庫的具體來源及分布存在一定的差異,本文語料庫的具體構(gòu)成情況如表1所示。
表1 語料的來源及數(shù)量
1.1.3 語料庫的標(biāo)注方法
“語料庫不是任意文本的隨意堆積。為了發(fā)揮語料庫的作用,通常都需要對語料庫進行一定的加工,進行何種加工和加工深度如何通常和應(yīng)用目標(biāo)相關(guān)”[12]。因此,收集和整理的語料根據(jù)不同領(lǐng)域中的應(yīng)用需求出發(fā)。為了達到更好的數(shù)據(jù)訓(xùn)練及最終實驗效果,我們特制定較為規(guī)范的標(biāo)記方法,本文對語料庫的標(biāo)注方面做出以下幾條統(tǒng)一規(guī)范。
(1) 語料庫整體的規(guī)范
在信息處理領(lǐng)域中,很多藏文語料存在著編碼不一且不同編碼之間互不兼容等問題。這些問題導(dǎo)致語料分散資源無法共享等后果,這對語料庫的設(shè)計帶來了一定的困難[13]。目前有同元、班智達、桑布扎、北大方正、華光、藏文編碼字符集擴充集和加央(jamyang)等近10種不同編碼的藏文字處理軟件。因此,為了便于對語料庫進行管理、處理和共享,我們在收集各種大量文本時,將不同編碼的藏文語料全部統(tǒng)一為ISO/IEC10646(Unicode6.2)的小字符集編碼,以TXT文本格式保存。
(2) 分詞和詞性標(biāo)記的規(guī)范
首先,利用傳統(tǒng)的分詞器對所有實驗數(shù)據(jù)進行自動分詞,并對每一個分詞單位給出初始的詞性。然后,通過規(guī)則和統(tǒng)計相結(jié)合的方法排除歧義。整個文本的詞語切分和詞性標(biāo)記都以“信息處理用藏語詞類標(biāo)記集規(guī)范”和“信息處理用現(xiàn)代藏文分詞規(guī)范”[4]為基礎(chǔ),結(jié)合藏語構(gòu)詞規(guī)則,再根據(jù)我們自己的實踐經(jīng)驗,以及總結(jié)、整理發(fā)現(xiàn)的一些新處理規(guī)律,對基本規(guī)范進行改進、補充和調(diào)整,形成了分詞和標(biāo)注結(jié)合的規(guī)范。從實際文本的內(nèi)容和不同應(yīng)用的研究來看,考慮不同的處理側(cè)重點,本文針對藏語語音合成系統(tǒng)前端文本分析中的切分和標(biāo)記方面包括以下三個具體的規(guī)范。
1) 切分規(guī)范
3) 存在兩種以上詞性的標(biāo)記規(guī)范
本文以《藏漢大詞典》為基礎(chǔ),在其所列出的常用藏語同形異音詞的基礎(chǔ)上,我們共收集整理了465個藏語同形異音詞,并從372 320個句子文本中統(tǒng)計出了同形異音詞在藏語文本中的出現(xiàn)頻率。我們根據(jù)同形異音詞的出現(xiàn)頻率,選取了165個文本中出現(xiàn)頻率較高的詞,根據(jù)文本分析獲取現(xiàn)代藏語文本中每個同形異音詞不同讀音的使用頻率,最終整理出140個同形異音詞作為本文研究的重點。前20個同形異音詞在35 890句藏文文本中的數(shù)據(jù)統(tǒng)計結(jié)果如表2所示。
表2 同形異音詞的出現(xiàn)頻率(前20個詞)
續(xù)表
藏語中所謂的同形異音詞,是指拼寫相同而讀音及詞義不同的詞,也可稱為“同形異音異義的詞”,與其他語言中所謂的多音詞在本質(zhì)上有很大的區(qū)別。例如,漢字中有許多多音字,多數(shù)多音字在詞的層面只有唯一的讀音,而多音詞在具體的語境中聯(lián)系上下文才能判斷正確的讀音。在很多不同語言中都有多音詞(同形異音詞),而藏語同形異音詞通常并不完全是帶有多音字的詞語,它與雙音詞是兩個不同的概念[10-11]。
雖藏語中基本不存在多音字的概念,但很多藏語雙音節(jié)詞在不同的語言環(huán)境中,由于聲調(diào)的高低、強弱的不同,會發(fā)生不同的變化。因而,存在同形異音異義的詞(homograph)。在計算語言學(xué)中為了與異形同音詞的加以區(qū)分,被稱為藏語同形異音詞。
從藏語構(gòu)詞法的角度分析,藏語同形異音詞有單純詞和合成詞的區(qū)別。這類詞的數(shù)量并不多,常用詞中可能只有數(shù)百個。藏語同形異音詞的構(gòu)詞形式只可以分成兩種,一是詞綴和結(jié)尾的詞。即準(zhǔn)確地判斷該詞后音節(jié)或是表義詞綴()還是表形詞綴()。因詞性不同而讀音不同,一般詞義也不同。例如,
第一類同形異音詞的結(jié)構(gòu)與維吾爾語多音詞相似,由詞根和詞綴構(gòu)成,同形異音詞詞根連接構(gòu)詞詞綴和構(gòu)形詞綴會構(gòu)成大量的同形異音詞,它們不僅發(fā)音有區(qū)別,并且改變詞的意義,對合成文本的可理解度有很大的影響[15]。
第二類同形異音詞是屬于組合型分詞歧義問題。即詞的讀音區(qū)別主要取決于藏文自動分詞和詞性預(yù)測的準(zhǔn)確率。若不能準(zhǔn)確地切分詞語,會導(dǎo)致詞性標(biāo)記錯誤。然而,發(fā)出錯誤的讀音,會改變詞的意思[16-18]。兩種同形異音詞的所占比例如表3所示。
表3 兩種同形異音詞的所占比例
根據(jù)藏語音勢論、藏語構(gòu)詞法及語法學(xué),深度辨析藏語文本中同形異音詞的表現(xiàn)形式,并在大規(guī)模語料中統(tǒng)計出同形異音詞的出現(xiàn)頻率和不同讀音的使用頻率,及同形異音詞的本身特征。本文把藏語同形異音詞分為四類。
表4 第一類同形異音詞(T1)
表5 第二類同形異音詞(T2)
表6 第三類同形異音詞(T3)
第四類: (D1>>D2)詞的另一種讀音在文本中使用頻率遠大于另一個讀音,并難以由上下文語境信息來確定讀音的詞(T4表示)。同形異音詞不同讀音的使用頻率相差懸殊,在藏語實際文本中僅有一個讀音經(jīng)常出現(xiàn),而另一種讀音很少出現(xiàn)的同形異音詞在所有同形異音詞中也占有一定的比例。這類同形異音詞主要是另一種讀音的使用頻率隨著現(xiàn)代語言學(xué)的發(fā)展變化而逐漸減少,且這些詞難以由上下文語境信息來判斷正確的讀音。如表7所示。
表7 第四類同形異音詞(T4)
圖2 同形異音詞不同類型的數(shù)據(jù)分析結(jié)果
基于規(guī)則的消歧方法主要依據(jù)語言學(xué)規(guī)則,它具有很強的形式描述能力和形式生成能力,在自然語言處理領(lǐng)域中有很好的應(yīng)用價值。通常做法是,通過人工方式依靠一定的專家知識來建立相對完備的規(guī)則庫,在藏語TTS系統(tǒng)前端文本分析中可以有效地能夠處理同形異音詞讀音判斷等困難。
(1) 高頻默認
在實際文本中,有些同形異音詞并沒有多個讀音的形式出現(xiàn),即在語料庫中僅有一個讀音經(jīng)常出現(xiàn)。而另一種讀音極少出現(xiàn),并且難以由上下文語境信息來判斷正確讀音的同形異音詞。因此,我們遵循基于真實語料的原則,采用高頻默認方法來處理“第四類”同形異音詞的讀音,對這類同形異音詞一律標(biāo)注為高頻音。
(2) 同形異音詞所在句中的位置
(3) 同形異音詞所在虛詞及助詞的位置
1.4 SNPs位點的選擇 通過查詢NCBI db SNP數(shù)據(jù)庫以及phaseⅡHapma數(shù)據(jù)庫并對數(shù)據(jù)庫中ATG5基因相關(guān)多態(tài)性位點進行篩選,結(jié)合多態(tài)性位點所處的功能結(jié)構(gòu)區(qū)域、多態(tài)性位點在我國人群中的最小等位基因頻率(MAF>0.1)以及國內(nèi)外學(xué)者對該基因多態(tài)性位點的功能性研究結(jié)論等影響因子,依照本研究的目的和所預(yù)期的試驗效果,選取ATG5基因中rs573775、rs510432、rs6568431、rs2299863 以及 rs38043385這個多態(tài)性位點。
在藏語傳統(tǒng)語言學(xué)中,對于虛詞及一些常用助詞我們是可以窮盡的,且在句子文本中與同形異音詞具有一定的搭配規(guī)則。
(4) 同形異音詞所在關(guān)鍵詞的位置
(5) 同形異音詞本身的信息
基于規(guī)則的同形異音詞讀音識別流程如圖3所示。
圖3 同形異音詞自動標(biāo)音流程圖
本文通過以上五個不同的消歧規(guī)則,對當(dāng)前在藏語語音合成系統(tǒng)前端文本分析中出現(xiàn)的140個高頻同形異音詞讀音進行了測試實驗。實驗數(shù)據(jù)為從9萬多句語料庫中挑選出的含有140個同形異音詞的句子,共計35 890句。實驗結(jié)果如表8所示。
表8 實驗結(jié)果
實驗表明,本文采用基于規(guī)則的消歧方法對140個高頻同形異音詞的讀音識別率高達95%。經(jīng)實驗結(jié)果分析得出,采用的規(guī)則方法對同形異音詞的消歧具有很強的分析能力,但同時也存在一定的解析困難。當(dāng)然,基于規(guī)則的方法主要依賴于規(guī)則集的可靠性,若規(guī)則集不完整或整理不全等問題會直接影響最終的識別結(jié)果,同時還存在一些規(guī)則沖突的問題。
本文針對目前藏語語音合成系統(tǒng)的突出問題,深度分析了藏語同形異音詞的結(jié)構(gòu)及分類,并收集整理了較大規(guī)模的藏語句子文本,為進一步分析和處理藏語同形異音詞的正確讀音準(zhǔn)備了素材。根據(jù)藏語同形異音詞的統(tǒng)計和分析,結(jié)果得出: 藏語中同形異音詞的出現(xiàn)主要問題在于詞語切分和詞性預(yù)測的準(zhǔn)確性。不同的讀音具有不同的詞性,詞義也不同。由于藏語本身受限于資源的不足,目前還無法從語義角度處理同形異音詞的讀音問題。
如果使用規(guī)則的方法進行同形異音詞的讀音分析,需對每一個詞都要具體問題具體分析,這樣不僅消耗大,也會發(fā)生規(guī)則沖突。因此,我們認為同形異音詞的讀音問題解決方法是在基于規(guī)則方法的基礎(chǔ)上,使用以大規(guī)模的標(biāo)注語料庫(Annotated Corpus)為基礎(chǔ)的統(tǒng)計學(xué)方法[19],即兩種方法結(jié)合可實現(xiàn)優(yōu)勢互補,不僅減少算法的復(fù)雜性,而且還能獲取更好的識別結(jié)果。下一步我們計劃統(tǒng)計并擴充藏語同形異音詞,盡可能地獲取較大規(guī)模的標(biāo)注語料庫。在此基礎(chǔ)上實現(xiàn)基于規(guī)則和統(tǒng)計結(jié)合的同形異音詞自動標(biāo)音方法,進一步提高同形異音詞的讀音準(zhǔn)確率和工作效率。
本文在語音合成方面的工作是在西藏大學(xué)和科大訊飛公司關(guān)于藏語語音合成的研究成果基礎(chǔ)上進行的,特別是在處理同形異音詞的技術(shù)方面得到了科大訊飛多語種研發(fā)團隊邵鵬飛、朱榮華、蔡明琦三位研究員的技術(shù)支持和具體幫助。關(guān)于語料庫的設(shè)計思想及問題分析受益于西藏大學(xué)研究生處趙棟材副教授的指導(dǎo),他為本文的研究內(nèi)容提出了寶貴的意見。在此,向指導(dǎo)和幫助過的研發(fā)團隊及個人表示由衷的謝意!