龍從軍,劉匯丹,吳 健
(1. 中國(guó)科學(xué)院軟件研究所,北京 100091; 2. 中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所,北京 100081)
藏文國(guó)際音標(biāo)(拉薩音)自動(dòng)轉(zhuǎn)換研究
龍從軍1,2,劉匯丹1,吳 健1
(1. 中國(guó)科學(xué)院軟件研究所,北京 100091; 2. 中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所,北京 100081)
該文旨在實(shí)現(xiàn)從藏文文本到國(guó)際音標(biāo)的自動(dòng)轉(zhuǎn)換,在一定程度上解決獲取較大規(guī)模的藏文國(guó)際音標(biāo)標(biāo)注文本的問(wèn)題。在國(guó)際音標(biāo)轉(zhuǎn)換系統(tǒng)中,采用了基于規(guī)則和統(tǒng)計(jì)融合的方法,實(shí)現(xiàn)了文語(yǔ)語(yǔ)音詞自動(dòng)切分;利用輔音、元音和聲調(diào)對(duì)應(yīng)規(guī)則表實(shí)現(xiàn)了藏語(yǔ)音節(jié)的國(guó)際音標(biāo)自動(dòng)轉(zhuǎn)換;利用聲調(diào)變化規(guī)則、輔音和元音變化規(guī)則實(shí)現(xiàn)了基于語(yǔ)音詞的聲調(diào)變調(diào)、輔音和元音的變化。從自動(dòng)標(biāo)注的結(jié)果來(lái)看,達(dá)到了實(shí)用效果。
藏語(yǔ);國(guó)際音標(biāo);自動(dòng)轉(zhuǎn)換;分詞
到目前為止,藏文文本國(guó)際音標(biāo)自動(dòng)轉(zhuǎn)換研究方面的成果還未報(bào)道過(guò)。但是在語(yǔ)音、語(yǔ)言研究中,語(yǔ)言學(xué)工作者都離不開(kāi)用國(guó)際音標(biāo)對(duì)語(yǔ)言的語(yǔ)音進(jìn)行記錄,即把聽(tīng)到的藏語(yǔ)語(yǔ)音用國(guó)際音標(biāo)記錄下來(lái)后進(jìn)行分析研究。聽(tīng)音、記音則需要經(jīng)過(guò)嚴(yán)格培訓(xùn),即便如此,不同的人由于聽(tīng)辨能力的差別,對(duì)同一個(gè)音也會(huì)出現(xiàn)不同的記錄結(jié)果;另外,語(yǔ)音的記錄過(guò)程耗時(shí)費(fèi)力,大規(guī)模的、標(biāo)有國(guó)際音標(biāo)的藏文文本較難獲得,規(guī)模太小又不能夠滿足藏語(yǔ)語(yǔ)音識(shí)別、文本語(yǔ)音轉(zhuǎn)換研究的需要。藏文是一種拼音文字,文字與語(yǔ)音之間有對(duì)應(yīng)也有變化,如果能通過(guò)探索對(duì)應(yīng)規(guī)則和變化規(guī)律,實(shí)現(xiàn)文本自動(dòng)國(guó)際音標(biāo)轉(zhuǎn)換,將對(duì)藏語(yǔ)語(yǔ)音工程應(yīng)用有重要的價(jià)值。由于藏語(yǔ)以詞為單位出現(xiàn)元音、輔音變化和聲調(diào)變調(diào),因此,本文還涉及文本分詞、輔音元音變化和聲調(diào)變調(diào)等相關(guān)規(guī)則研究。
2.1 藏文與聲母的對(duì)應(yīng)
藏文是拼音文字,現(xiàn)代藏文由30個(gè)輔音字母和四個(gè)元音符號(hào)(a無(wú)符號(hào)對(duì)應(yīng))組成,輔音和元音拼合構(gòu)成藏語(yǔ)的音節(jié)。
現(xiàn)代藏語(yǔ)的聲母有29個(gè),它來(lái)源于單輔音字符和復(fù)合輔音字符。復(fù)合輔音字符包括前加、上加、基輔音和下加輔音。前加、上加和下加輔音在一定條件下影響聲母的類型,而后加輔音字母在一定條件下影響元音和聲調(diào)。藏文與聲母的對(duì)應(yīng)(以拉薩方言讀音為準(zhǔn))如表1所示。
表1 聲母與藏文對(duì)應(yīng)關(guān)系表
續(xù)表
2.2 藏文與韻母的對(duì)應(yīng)
表2 藏文與韻母的對(duì)應(yīng)關(guān)系
2.3 藏文與聲調(diào)對(duì)應(yīng)
3.1 語(yǔ)音詞的定義
在藏文文本中,詞與詞之間無(wú)明顯分割標(biāo)記,為了適應(yīng)文本信息處理的需要,通常會(huì)進(jìn)行分詞處理;同樣在語(yǔ)音標(biāo)注研究中,藏語(yǔ)的元音和聲調(diào)以詞為單位發(fā)生變化,因此也需要進(jìn)行語(yǔ)音詞的切分。根據(jù)研究領(lǐng)域和研究需要的不同,詞的邊界也體現(xiàn)出差異,語(yǔ)言學(xué)研究領(lǐng)域區(qū)分了語(yǔ)法詞、詞匯詞和語(yǔ)音詞的概念。本文旨在研究藏語(yǔ)的語(yǔ)音標(biāo)注,主要關(guān)注語(yǔ)音詞的切分。
3.2 語(yǔ)音詞的元輔音變化規(guī)則
元音的變化。元音變化的情況可以分成兩個(gè)方面考慮,一是在音節(jié)中受后加輔音的影響導(dǎo)致的元音變化,前文已經(jīng)有敘述,這里需要強(qiáng)調(diào)一下//元音,這個(gè)元音在拉薩方言中并不是大家公認(rèn)的,本項(xiàng)研究認(rèn)為在音節(jié)中,如果一個(gè)音節(jié)的元音為a,后加輔音為時(shí),a元音變化為//元音,例如,讀作“php132”、讀作“khp132”;另一種元音變化是在語(yǔ)音詞的范圍內(nèi),前后音節(jié)之間相互影響而引起的變化,這種變化又可以根據(jù)不同情況分類,(1)元音高低前后之間的變化,例如,讀作“kha55thu55”,實(shí)際讀作“kh55thu55”,讀作“ji13ke51”,實(shí)際讀作“ji13ki51”,讀作“ko13t?h51”,實(shí)際讀作“ku13t?hil51”。(2)元音長(zhǎng)短的變化,由屬格標(biāo)記構(gòu)成的黏寫音節(jié)的元音變長(zhǎng),例如,加屬格標(biāo)記構(gòu)成,讀音由“ti13”變?yōu)椤皌i:13”。(3)元音類型的改變,由屬格標(biāo)記和施事格、工具原因格標(biāo)記構(gòu)成的黏寫音節(jié)的元音變化,例如,和,和,分別讀作“a13”、“?:13”和“a13”、“?132”。
3.3 語(yǔ)音詞的聲調(diào)變化規(guī)則
在一個(gè)語(yǔ)音詞的內(nèi)部,音節(jié)的聲調(diào)根據(jù)音節(jié)在詞中的位置會(huì)發(fā)生一定的變化。聲調(diào)變化主要在雙音節(jié)和三音節(jié)中,一個(gè)語(yǔ)流片段是否發(fā)生變調(diào),主要看“詞的內(nèi)部實(shí)詞素結(jié)合的松緊,結(jié)合得緊,組成一個(gè)構(gòu)詞單位,聲調(diào)發(fā)生變化,結(jié)合得松的,不組成一個(gè)構(gòu)詞單位,聲調(diào)不發(fā)生變化”[6]。就雙音節(jié)詞而言,根據(jù)前文所說(shuō)的四個(gè)調(diào)類的不同調(diào)值,共有16個(gè)調(diào)值組合: 55+55、55+51、55+13、55+132、51+55、51+13、51+132、51+51、13+55、13+51、13+13、13+132、132+55、132+51、132+13、132+132,但實(shí)際只有四種合規(guī)組合: 55+55、55+51、13+55、13+51。雙音節(jié)的變調(diào)規(guī)則可以總結(jié)為: (1)雙音節(jié)的第一個(gè)音節(jié)不能是降調(diào),第一個(gè)音節(jié)的51變成55,132變成13; (2)雙音節(jié)的第二個(gè)音節(jié)不能是低調(diào),13變成55,132變成51。如果第二音節(jié)是構(gòu)詞詞綴,則第二音節(jié)變?yōu)檩p聲*語(yǔ)音詞的分詞規(guī)則不同,會(huì)導(dǎo)致一些聲調(diào)變化差異,例如,在文本上體現(xiàn)為動(dòng)詞+連詞,否定副詞+聯(lián)系動(dòng)詞或者存在動(dòng)詞的結(jié)構(gòu),我們?cè)谡Z(yǔ)音分詞時(shí)作為一個(gè)分詞單位,因此其聲調(diào)變化規(guī)則等同于雙音節(jié)詞。; (3)三音節(jié)詞的變調(diào)有兩種情況,即前兩個(gè)音節(jié)按雙音節(jié)詞規(guī)則變調(diào),后一個(gè)不發(fā)生變化,或者后兩個(gè)音節(jié)按照雙音節(jié)詞規(guī)則變調(diào),前一個(gè)不發(fā)生變化。
4.1 藏語(yǔ)語(yǔ)音詞自動(dòng)分詞
在基于字位的分詞方法中,使用特征模板集定義對(duì)上下文的依賴關(guān)系。字位標(biāo)注系統(tǒng)中常用的特征模板如表3所示,U01,U02指的是特征的序號(hào),%x[0 , 0]指的是當(dāng)前字的一元特征(Unigram),%x[-1, 0]/%x[1, 0]指的是前一個(gè)字和后一個(gè)字組成的二元特征組(Bigram),依此類推。
表3 常用特征模板
在分詞實(shí)驗(yàn)中,本研究使用了人工切分的5 837句語(yǔ)料作為訓(xùn)練語(yǔ)料,材料來(lái)源于教材、會(huì)話和影視頻教學(xué)片。所有語(yǔ)料的訓(xùn)練與測(cè)試均采用CRF++開(kāi)源程序包。盡管語(yǔ)料有限,經(jīng)對(duì)相同類型的400句材料進(jìn)行測(cè)試,獲得的測(cè)試結(jié)果F值達(dá)到94.3%。
4.2 基于規(guī)則的單音節(jié)音標(biāo)轉(zhuǎn)換
表4 聲韻母及聲調(diào)規(guī)則表(部分)
4.3 語(yǔ)音詞的韻母及聲調(diào)變化轉(zhuǎn)換
聲調(diào)的變化主要依照前文所說(shuō)的變化原則,設(shè)置變調(diào)規(guī)則,變調(diào)規(guī)則主要考慮了雙音節(jié)和三音節(jié)詞,以及部分讀輕聲的詞綴、虛詞等。具體的變調(diào)規(guī)則格式如表 5所示。
表5 雙音節(jié)和三音節(jié)變調(diào)規(guī)律(部分)
說(shuō)明: s代表音節(jié),“>”表示變調(diào)方向, “>”的左邊是單音節(jié)的原調(diào),“>”的右邊是變化后的調(diào)。
4.4 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
系統(tǒng)的總體流程如圖1所示。從藏文文本到國(guó)際音標(biāo)的轉(zhuǎn)換總體上需要經(jīng)過(guò)三個(gè)大的階段,首先是分詞,其次是音標(biāo)轉(zhuǎn)換,最后是變音變調(diào)。
圖1 藏文國(guó)際音標(biāo)自動(dòng)轉(zhuǎn)換的處理流程
藏文轉(zhuǎn)換為國(guó)際音標(biāo)的過(guò)程中之所以需要分詞,是因?yàn)檎Z(yǔ)音詞內(nèi)音節(jié)的讀音和聲調(diào)可能受到其前后音節(jié)的影響而發(fā)生變化,而這種影響僅發(fā)生在詞語(yǔ)內(nèi)的相鄰音節(jié),分詞的目的是為了第三階段作詞內(nèi)變音和變調(diào)。
對(duì)于每個(gè)詞語(yǔ),系統(tǒng)首先將其拆分為音節(jié),對(duì)于各個(gè)音節(jié),再拆分為聲母和韻母,然后分別調(diào)用聲母轉(zhuǎn)換規(guī)則和韻母轉(zhuǎn)換規(guī)則,將藏文文本轉(zhuǎn)換為國(guó)際音標(biāo),聲母轉(zhuǎn)換規(guī)則和韻母轉(zhuǎn)換規(guī)則中均已經(jīng)包含了聲調(diào)。藏文前加、上加、下加輔音對(duì)基輔音的發(fā)音有影響;同樣,后加和再后加輔音對(duì)元音的發(fā)音變化也有影響,在本系統(tǒng)中,我們將聲母和韻母作為轉(zhuǎn)換的基本單元,在轉(zhuǎn)換規(guī)則中已經(jīng)包含了音節(jié)內(nèi)的元音和輔音的變音規(guī)則。藏語(yǔ)中,單個(gè)音節(jié)的聲調(diào)大多取決于聲母,但韻母對(duì)聲調(diào)也有一定的影響,聲母轉(zhuǎn)換規(guī)則庫(kù)和韻母轉(zhuǎn)換規(guī)則庫(kù)中均已經(jīng)包含了聲母的聲調(diào)和韻母的聲調(diào),系統(tǒng)再根據(jù)音節(jié)內(nèi)變調(diào)規(guī)則最終確定整個(gè)音節(jié)的聲調(diào);然后,系統(tǒng)處理詞語(yǔ)內(nèi)部各個(gè)音節(jié)之間的各種變化,根據(jù)詞內(nèi)變音規(guī)則庫(kù)和詞內(nèi)變調(diào)規(guī)則庫(kù)對(duì)詞內(nèi)音節(jié)作變音和變調(diào)處理。
4.5 自動(dòng)轉(zhuǎn)換結(jié)果分析
在圖1三個(gè)階段中,單音節(jié)音標(biāo)轉(zhuǎn)換階段完全采用規(guī)則的方法,而且這種轉(zhuǎn)換規(guī)則是可以窮盡的,因此能夠保證單音節(jié)轉(zhuǎn)換完全正確。但是在變音變調(diào)階段聲韻調(diào)的變化是以語(yǔ)音詞為單位,聲韻調(diào)的變化是否正確取決于第一階段分詞的正確性。以A和B兩組轉(zhuǎn)換例子來(lái)說(shuō)明。
在A組中,文本分詞正確,分別得到A2和A3的轉(zhuǎn)換結(jié)果,為了驗(yàn)證這個(gè)結(jié)果的正確性,我們錄制了母語(yǔ)人的語(yǔ)音,經(jīng)聽(tīng)辨,發(fā)現(xiàn)聲韻調(diào)的變化基本上與母語(yǔ)人的語(yǔ)音相吻合。但是如果分詞一旦發(fā)生錯(cuò)誤,得到B3的轉(zhuǎn)換結(jié)果,就與母語(yǔ)人發(fā)音相差較遠(yuǎn)了。
本項(xiàng)研究的目的是實(shí)現(xiàn)藏文文本國(guó)際音標(biāo)自動(dòng)轉(zhuǎn)換,轉(zhuǎn)換過(guò)程中分別采用了規(guī)則方法和統(tǒng)計(jì)方法,在單音節(jié)國(guó)際音標(biāo)轉(zhuǎn)換階段和詞內(nèi)聲韻調(diào)的變化階段完全使用規(guī)則方法,在分詞階段采用了統(tǒng)計(jì)方法。分詞結(jié)果影響詞內(nèi)聲韻調(diào)的變化結(jié)果。從現(xiàn)有轉(zhuǎn)換情況來(lái)看,分詞正確率達(dá)到94%左右,精度還需要進(jìn)一步的提升。在后續(xù)研究中,我們計(jì)劃校正現(xiàn)有轉(zhuǎn)換結(jié)果,改善分詞效果,可以考慮用統(tǒng)計(jì)的方法預(yù)測(cè)詞內(nèi)聲、韻、調(diào)的變化情況。
[1] 胡坦, 藏語(yǔ)(拉薩話)聲調(diào)研究[J]. 民族語(yǔ)文, 1984,8: 22-36.
[2] 格桑居勉, 格桑央金, 藏語(yǔ)方言概論[M]. 民族出版社, 2002: 9-10.
[3] 周季文, 藏語(yǔ)拼音教材[M]. 民族出版社, 1996年重印本,1996: 5.
[4] 于道泉, 藏漢拉薩口語(yǔ)詞典[M]. 民族出版社, 1983: 11.[5] 王洪君, 漢語(yǔ)語(yǔ)音詞的韻律類型[J]. 中國(guó)語(yǔ)文, 1996,3: 167-171.
[6] 瞿靄堂, 藏語(yǔ)的變調(diào)[J]. 中國(guó)語(yǔ)文, 1981,6: 20-27.
[7] 劉匯丹, 藏文分詞及文本資源挖掘研究[D]. 中國(guó)科學(xué)院大學(xué)博士論文, 2012.
[8] Caijun Kang,Congjun Long and Di Jiang.Tibetan Word Segmentation Based on Word-Position Tagging[C]//Proceedings of the International Conference on Asian Language Processing 2013(IALP 2013): 239-242.
[9] Huidan Liu,Minghua Nuo,Longlong Ma,Jian Wu and Yeping He.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language,Information and Computation(PACLIC-2011): 168-177.
[10] Congjun Long,Caijun Kang and Di Jiang.The Comparative Research on the Segmentation Strategies of Tibetan Bounded-Variant Forms[C]//Proceedings of the International Conference on Asian Language Processing 2013(IALP 2013): 243-246.
[11] 李亞超,加羊吉,宗成慶等.基于條件隨機(jī)場(chǎng)的藏語(yǔ)自動(dòng)分詞方法研究與實(shí)現(xiàn)[J],中文信息學(xué)報(bào),2013,(4): 52-58.
Research on Automatic Conversion of IPA for Tibetan Text
LONG Congjun1,2LIU Huidan1,WU Jian1
(1. Institute of software Chinese academy of Sciences, Beijing 100190,China 2. Institute of ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081,China)
This paper applies rules and statistical methods to realize conversion form Tibetan texts to IPA texts. The procedures of conversion include word segmentation , and construction of mapping rules and patterns of consonants, vowels, tones and monosyllables or multi-syllables. Experimental results show the proposed system does well in IPA conversion.
Tibetan; IPA; automatic conversion; word-segmentation
龍從軍(1978—),博士,副研究員,主要研究領(lǐng)域?yàn)椴卣Z(yǔ)計(jì)算語(yǔ)言學(xué)。E?mail:longcj@cass.org.cn劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、多語(yǔ)言信息處理。E?mail:huidan@iscas.a(chǎn)c.cn吳健(1962—),研究員,主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語(yǔ)言信息處理。E?mail:wujian@iscas.a(chǎn)c.cn
1003-0077(2016)05-0203-06
2015-10-15 定稿日期: 2016-04-25