陳小瑩 艾金勇
摘要:本文通過收集整理藏語夏河話的音系,歸納出對(duì)應(yīng)的音系特征,依據(jù)SAMPA的設(shè)計(jì)原則并參照漢語和藏語的國際音標(biāo),最終設(shè)計(jì)并實(shí)現(xiàn)了藏語夏河話機(jī)讀音標(biāo)系統(tǒng)。藏語機(jī)讀音標(biāo)的設(shè)計(jì)可以為藏語語音工程的實(shí)現(xiàn)打下堅(jiān)實(shí)的基礎(chǔ),可以真正地實(shí)現(xiàn)文音轉(zhuǎn)換功能。
關(guān)鍵詞:藏語;夏河話;機(jī)讀音標(biāo);SAMPA
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):2095-2163(2016)01-
Abstract: Through the collection of Tibetan Xiahe dialect phonetic system, the paper sums up corresponding phonetic feature. Based on this work, according to the principles of design of sampa and with reference to the international phonetic alphabet of Chinese and Tibetan, the paper designs and implements the Tibetan Xiahe phone read phonetic system. Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering, which could truly realize the text to speech function.
Keywords: Tibetan; Xiahe dialect; Machine readable phonogram;SAMPA
1機(jī)讀音標(biāo)系統(tǒng)
1.1機(jī)讀音標(biāo)系統(tǒng)概述
機(jī)讀音標(biāo)SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年間歐洲的 ESPRIT(歐洲信息技術(shù)研究開發(fā)戰(zhàn)略計(jì)劃)開發(fā)的一種計(jì)算機(jī)可讀的音標(biāo)系統(tǒng),該系統(tǒng)采用拉丁字母、數(shù)字以及其它簡單易于輸入的鍵盤符號(hào)組合形式來替代目前國際音標(biāo)中的各種特殊符號(hào)。目前世界上各種語言的語音數(shù)據(jù)庫都使用該符號(hào)系統(tǒng),使得計(jì)算機(jī)在輸入國際音標(biāo)時(shí)更加方便,同時(shí)也能便捷地表示出各種復(fù)雜的國際音標(biāo)符號(hào)[1]。但是每一種語言的音標(biāo)都有各自的語言版本,不同版本之間的SAMPA表并不能完全兼容,因此SAMPA表并不能表示出所有語言的國際音標(biāo)。針對(duì)SAMPA表的這一缺點(diǎn),1995年倫敦大學(xué)的語言學(xué)教授設(shè)計(jì)并提出了X-SAMPA,能夠代表所有國際音標(biāo)的單一代碼表,而且是在SAMPA的基礎(chǔ)上進(jìn)行擴(kuò)充,從而可以用ASCII字符表示國際音標(biāo)的所有符號(hào)[2]。由此,SAMPA就成為一個(gè)在國際音標(biāo)基礎(chǔ)上能夠表示世界上各種語言的機(jī)讀音標(biāo)系統(tǒng)。目前,SAMPA已廣泛應(yīng)用于歐洲的主要語種以及日語等東亞語言。國內(nèi)的漢語、粵方言和臺(tái)灣的“國語”也隨之而設(shè)計(jì)了 SAMPA方案,在一定程度上推進(jìn)了SAMPA的普及與應(yīng)用。同時(shí)眾多語音工作者也開始對(duì)SAMPA進(jìn)行研究,并在嗓音醫(yī)學(xué)和計(jì)算機(jī)語音教學(xué)等方面取得了諸多成果和可觀成就。
1.2機(jī)讀音標(biāo)系統(tǒng)設(shè)計(jì)原則
SAMPA最初的目的是為了使計(jì)算機(jī)在盡可能保證語言本身音系的基礎(chǔ)上,比較方便地表示出國際音標(biāo)。基于此目的,SAMPA設(shè)定了具體原則[3]:
(1)SAMPA設(shè)計(jì)必須遵循語言本身,依據(jù)實(shí)際語言的國際音標(biāo)進(jìn)行處理。國際音標(biāo)中的特殊字符若已包含在SAMPA字符中,則可直接使用,否則需盡量采用符合SAMPA規(guī)則的符號(hào)來予以代替;
(2)相關(guān)語言系統(tǒng)中已經(jīng)成型的SAMPA中有一些附加符號(hào)亦盡量采用;
(3)講究整體的系統(tǒng)性以及與其它語言的相通性。
在設(shè)計(jì)藏語安多話機(jī)讀音標(biāo)系統(tǒng)時(shí),輸入的藏文字符首先要在遵循其本身國際音標(biāo)的基礎(chǔ)上,轉(zhuǎn)換成對(duì)應(yīng)的國際音標(biāo)。通過設(shè)計(jì)夏河話的聲母SAMPA、韻母SAMPA以及聲調(diào)的SAMPA,從而最終有效推進(jìn)并完成了對(duì)夏河話SAMPA_AT的研發(fā)與實(shí)現(xiàn)。具體設(shè)計(jì)流程如圖1所示。
2夏河話SAMPA_AT設(shè)計(jì)
2.1聲母設(shè)計(jì)
夏河話中共有36個(gè)單輔音和18個(gè)復(fù)輔音,都可以作為聲母(/kw/以外都能在第一音節(jié)出現(xiàn))。單輔音聲母包含9個(gè)塞音、9個(gè)塞擦音、10個(gè)擦音、4個(gè)鼻音、2個(gè)半元音、1個(gè)鼻音和1個(gè)閃音。復(fù)輔音聲母主要有nc型和hc型兩種類型,其中nc型指鼻音前置與輔音結(jié)合的復(fù)輔音形式,hc型指喉音h和?前置與輔音結(jié)合的復(fù)輔音形式,其它復(fù)輔音形式基本已經(jīng)消失[4]。
在夏河話聲母SAMPA_AT的設(shè)計(jì)部分,部分采用的規(guī)則和藏語拉薩話聲母一致,具體則如表1所示。
在夏河話聲母SAMPA_AT的設(shè)計(jì)部分,參照已有的拉薩話聲母SAMPA_WT的設(shè)計(jì)方案,其余基本上采用鍵盤上可以直接輸入的符號(hào),并且盡可能依據(jù)國際音標(biāo),采用X-SAMPA類似符號(hào),這樣不易引起音位混淆。具體將按如下方法展開設(shè)計(jì):
(1)如果國際音標(biāo)可直接用ASCII字符來提供合理表示,而為了節(jié)約空間和擊鍵次數(shù),夏河話聲母的 SAMPA_AT機(jī)讀音標(biāo)即可直接采用藏語的國際音標(biāo)來進(jìn)行解析與表示。輔音聲母x,z,b,d,g,dz在SAMPA_AT中采用與其國際音標(biāo)相同字母替代,并且對(duì)應(yīng)的機(jī)讀音標(biāo) SAMPA_AT分別標(biāo)記為/x/,/z/,/b/,/d/,/g/,/dz/;
(2)對(duì)于其它難以用鍵盤輸入的國際音標(biāo),直接使用和國際音標(biāo)相近的且未使用過的鍵盤符號(hào)來標(biāo)記。但是之前的標(biāo)記過程中已經(jīng)使用過這些音標(biāo)符號(hào),為了避免出現(xiàn)相同的SAMPA_AT符號(hào),同時(shí)為了和其它相同字母區(qū)分,有些在國際音標(biāo)的基礎(chǔ)上輔以鍵盤上其它符號(hào)表示與其關(guān)聯(lián)的SAMPA_AT;現(xiàn)舉幾例,則如下所示:
輔音d?,該國際音標(biāo)符號(hào)用鍵盤不方便輸入,為了和已經(jīng)使用過的/dz/區(qū)分,同時(shí)也表明其卷舌的發(fā)音方式,所以在該國際音標(biāo)的基礎(chǔ)上加一個(gè)符號(hào)來標(biāo)記它的SAMPA_AT,標(biāo)記為/dz`/;
輔音t?,?,?,?和d?,這五個(gè)符號(hào)在鍵盤上不存在,為了表明與其相同發(fā)音方式輔音的相關(guān)性,機(jī)讀音標(biāo)分別標(biāo)記為/ts\/,/z\/,/p\/,/h\/,/dz\/;
由于輔音?不同于以上情況,因此參照國際音標(biāo),即將其機(jī)讀音標(biāo)SAMPA_AT標(biāo)記為/G/。
(3)藏語安多方言中聲母的送氣和不送氣這一區(qū)別特征,在發(fā)音和感知上非常重要。例如送氣輔音sh在SAMPA_AT轉(zhuǎn)換時(shí),也添加了表示送氣的附加符號(hào),具體所定義的機(jī)讀音標(biāo)SAMPA_AT則標(biāo)記為/s_h/。
夏河話中復(fù)輔音聲母的SAMPA_AT設(shè)計(jì)方式也是分兩部分展開與實(shí)現(xiàn),也就是分別按照對(duì)應(yīng)的單輔音聲母轉(zhuǎn)換符號(hào)進(jìn)行轉(zhuǎn)換,然后再將兩者相組合完成復(fù)輔音聲母的轉(zhuǎn)換設(shè)計(jì)。具體可如表2所示。
在夏河話復(fù)輔音聲母SAMPA_AT的設(shè)計(jì)部分,也和單輔音聲母采用一致的規(guī)則來完成構(gòu)建,同時(shí)又為節(jié)約空間和擊鍵次數(shù),藏語拼音的SAMPA_AT機(jī)讀音標(biāo)將直接采用國際音標(biāo)來表示;對(duì)于其它的難以用鍵盤輸入的國際音標(biāo),則直接使用和國際音標(biāo)相近的且未使用過的鍵盤符號(hào)來標(biāo)記。但是之前的標(biāo)記已經(jīng)使用過這些音標(biāo)符號(hào),為了避免出現(xiàn)相同的SAMPA_AT符號(hào),同時(shí)為了和其它相同字母區(qū)分,有些在國際音標(biāo)的基礎(chǔ)上輔以鍵盤上其它符號(hào)來表示其所對(duì)應(yīng)的SAMPA_AT。
2.2韻母設(shè)計(jì)
安多夏河話中一共包含34個(gè)韻母,其中包含6個(gè)單元音/a/、/i/、/o/、/u/、/e/、/?/;3個(gè)復(fù)元音韻母/ai/、/ao/、/eo/以及25個(gè)帶輔音韻尾的韻母,這些帶韻尾的韻母分別為元音/e/、/a/、/o/、/?/、與韻尾p、m、t、n、k、?、r相結(jié)合形成的;/i/、/u/兩個(gè)元音不能與任何韻尾結(jié)合[4]。
夏河話包括除/a/、/i/、/o/、/u/、/e/這5個(gè)鍵盤可以直接輸入的基本元音外,還包括鍵盤無法直接輸入的單元音/?/,參照前面的分析以及SAMPA原則將其SAMPA_AT符號(hào)設(shè)計(jì)為“@”。在元音與復(fù)合韻尾結(jié)合構(gòu)成的韻母也是分兩部分進(jìn)行設(shè)計(jì),分別將基本元音和輔音韻尾的SAMPA符號(hào)結(jié)合實(shí)現(xiàn),SAMPA_AT中韻母與拉薩話韻母的設(shè)計(jì)方式基本一致。
2.3聲調(diào)處理
安多方言區(qū)不存在區(qū)分語義和語法作用的聲調(diào)系統(tǒng),在安多方言區(qū)存在的只是一些習(xí)慣調(diào),但是這些習(xí)慣調(diào)并不會(huì)影響到語音交流,因此項(xiàng)目中不予考慮[5]。
3結(jié)束語
本文選取夏河話作為藏語安多方言區(qū)的代表,通過歸納整理拉薩話音系特征,在遵循SAMPA的原則下,參照X-SAMPA以及漢語成熟的SAMPA_SC系統(tǒng)完成了藏語夏河話SAMPA系統(tǒng)的設(shè)計(jì)。藏語機(jī)讀音標(biāo)的設(shè)計(jì)可以為藏語語音工程的實(shí)現(xiàn)打下堅(jiān)實(shí)的基礎(chǔ),可以真正實(shí)現(xiàn)文音轉(zhuǎn)換功能。同時(shí)也為藏語韻律特征研究、語音合成以及語音識(shí)別等語音工程領(lǐng)域研究提供科學(xué)依據(jù)。
參考文獻(xiàn):
[1]于洪志,高璐,李永宏,等. 藏語機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)[J]. 中文信息學(xué)報(bào), 2012, 26(4):66-72.
[2] 劉 博,楊鴻武,甘振業(yè),等. 利用SAMPA實(shí)現(xiàn)藏語的字音轉(zhuǎn)換[J].計(jì)算機(jī)工程與應(yīng)用, 2011, 47(35): 117-121.
[3]張家騄. 漢語普通話機(jī)讀音標(biāo)SAMPA-SC[J].聲學(xué)學(xué)報(bào)(中文版), 2009,34(1):81-86.
[4]格桑居冕.藏語方言概論[M]. 北京:民族出版社,2002.
[5]胡坦. 藏語(拉薩話)聲調(diào)研究[J]. 民族語文, 1980(1) :22-36.