陳小瑩
(西藏民族大學(xué)信息工程學(xué)院,陜西咸陽 712082)
康方言—德格話SAMPA_KT設(shè)計
陳小瑩
(西藏民族大學(xué)信息工程學(xué)院,陜西咸陽712082)
本文通過收集整理藏語德格話的音系,歸納出對應(yīng)的音系特征,依據(jù)SAMPA的設(shè)計原則并參照漢語和藏語的國際音標(biāo),最終設(shè)計并實現(xiàn)了藏語德格話機讀音標(biāo)系統(tǒng)。藏語機讀音標(biāo)的設(shè)計可以為藏語語音工程的實現(xiàn)打下堅實的基礎(chǔ),可以真正地實現(xiàn)文音轉(zhuǎn)換功能。
藏語;德格話;機讀音標(biāo);SAMPA
1.1機讀音標(biāo)系統(tǒng)概述
機讀音標(biāo)SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年間歐洲的ESPRIT(歐洲信息技術(shù)研究開發(fā)戰(zhàn)略計劃)開發(fā)的一種計算機可讀的音標(biāo)系統(tǒng),該系統(tǒng)采用拉丁字母、數(shù)字以及其它簡單、易于輸入的鍵盤符號組合形式來替代目前國際音標(biāo)中的各種特殊符號。當(dāng)今世界上各種語言的語音數(shù)據(jù)庫都使用該符號系統(tǒng),使得計算機在輸入國際音標(biāo)時更加方便,同時也能便捷地表示出各種復(fù)雜的國際音標(biāo)符號。但是每一種語言的音標(biāo)都有各自的語言版本,不同版本之間的SAMPA表并不能完全兼容,因此SAMPA表還不能表示出所有語言的國際音標(biāo)。針對SAMPA表的這一缺陷不足,1995年倫敦大學(xué)的語言學(xué)教授提出并設(shè)計了X -SAMPA,這是一種可以代表所有國際音標(biāo)的單一代碼表,而且是在SAMPA的基礎(chǔ)上完成擴充,并可以用ASCII字符表示國際音標(biāo)的所有符號[1]。由此,SAMPA即已成為一個在國際音標(biāo)基礎(chǔ)上可以表示世界上各種語言的機讀音標(biāo)系統(tǒng)。目前,SAMPA已廣泛應(yīng)用于歐洲的主要語種以及日語等東亞語言。國內(nèi)的漢語、粵方言和臺灣的“國語”也順應(yīng)潮流相繼設(shè)計了SAMPA方案,在一定程度上推廣了SAMPA的應(yīng)用。同時,眾多語音工作者也開始對SAMPA展開研究探討,其研究成果在嗓音醫(yī)學(xué)和計算機語音教學(xué)等方面也獲得了諸多可觀應(yīng)用[2]。
本文在漢語普通話的機讀音標(biāo)設(shè)計方案的基礎(chǔ)上,設(shè)計了一套藏語德格話的計算機可讀的SAMPA_KT機讀音標(biāo)系統(tǒng),并實現(xiàn)了藏語到SAMPA_KT的轉(zhuǎn)寫。與藏語的國際音標(biāo)或拉丁字符轉(zhuǎn)寫比較,藏語的SAMPA_KT轉(zhuǎn)寫具有可以方便地利用鍵盤直接鍵入SAMPA標(biāo)記、而且SAMPA_KT可以解決拉丁形式缺少的字符和添加各類附加符號的變體等優(yōu)點。
1.2機讀音標(biāo)系統(tǒng)設(shè)計原則
SAMPA的設(shè)計初衷是為了使計算機在盡可能保證語言本身音系的基礎(chǔ)上,更為了方便地對國際音標(biāo)進行表示和描述?;谶@一研究目的,SAMPA設(shè)定了具體原則[3]:
1)SAMPA必須遵循語言本身,并依據(jù)實際語言的國際音標(biāo)進行設(shè)計。若在SAMPA字符中包含著國際音標(biāo)中的特殊字符,將直接使用,否則就盡量采用符合SAMPA規(guī)則的關(guān)聯(lián)符號予以代替;
2)對于相關(guān)語言系統(tǒng)中已經(jīng)成型的SAMPA內(nèi)帶有的一些附加符號,也應(yīng)盡量采用;
3)設(shè)計時,要兼顧呈現(xiàn)整體的系統(tǒng)性以及與其它語言的相通性。
在設(shè)計藏語機讀音標(biāo)系統(tǒng)時,輸入的藏文字符首先要在遵循其本身國際音標(biāo)的基礎(chǔ)上,轉(zhuǎn)換成對應(yīng)的國際音標(biāo);其次,再對比漢語和藏語的國際音標(biāo)。兩者音標(biāo)一致部分若遵循X-SAMPA標(biāo)記原則,直接利用漢語機讀音標(biāo)系統(tǒng)SAMPA _SC來標(biāo)記藏語拼音;兩者國際音標(biāo)不一致部分,則采用簡單化原則,利用定義的簡單符號進行標(biāo)記。不同的藏語方言,雖然文字相同,但是發(fā)音卻各有不同,因此不同方言區(qū)的SAMPA碼即需要進行分別單獨設(shè)計。具體設(shè)計流程如圖1所示。
圖1 德格話單音節(jié)SAMPA_KT設(shè)計流程圖Fig.1 De Ge single syllable SAMPA_AT Design flow chart
由于漢語語音的研究已趨于成熟,而且藏語和漢語有許多相通的地方,所以藏語和漢語之間存在相似關(guān)系,藏語屬于漢藏語系,2種語言的親屬關(guān)系可以通過同源詞(包括部分語法詞)的比較得到佐證[4]。如此,即可利用成熟的漢語語音技術(shù)來推進和拓展藏語語音研究。利用漢語拼音的機讀音標(biāo)SAMPA-SC來設(shè)計藏語拼音的機讀音標(biāo)SAMPA-KT。通過對照漢語和藏語的國際音標(biāo),發(fā)現(xiàn)漢語和藏語的國際音標(biāo)有一部分是一致的,為此以國際音標(biāo)為參照,將兩者的國際音標(biāo)一致的部分,直接利用SAMPA-SC來標(biāo)記藏語拼音;兩者國際音標(biāo)不一致的部分,則采用簡單化原則,利用定義的簡單符號進行標(biāo)記。對輸入的藏語拼音字母,獲得其國際音標(biāo),然后與漢語拼音的國際音標(biāo)比較,相同的部分直接采用SAMPASC標(biāo)記,不同的部分則按照簡化原則,利用未使用的鍵盤符號予以標(biāo)記。對于不同的藏語方言,雖然文字相同,但是發(fā)音并不一樣,因此根據(jù)藏語方言的國際音標(biāo)來設(shè)計其對應(yīng)的SAMPA,設(shè)計方法相同。
2.1聲母設(shè)計
德格縣位于四川省西部,隸屬于四川省甘孜藏族自治州,地理上位于西北部,是康巴方言區(qū)有名的文化古城,因此德格話也可認為是康方言區(qū)比較通用的語言。由于康方言使用的地區(qū)大多處在交通不便的山區(qū),山川阻隔,并且與外界交流很少,這就使得學(xué)者對康方言的考察和研究相對而言遠未成熟。
德格話音位系統(tǒng)中有較多的單輔音聲母,包括43個單輔音音位,其中有清濁對立的塞音、塞擦音、擦音和鼻音,還有邊音和半元音。在德格話中也存在清化鼻音的現(xiàn)象,德格話中有7個復(fù)輔音聲母,復(fù)輔音也有nc型和hc型2種。具體地,nc型是鼻音與b、d、g、dz、d?、d?組合構(gòu)成,hc型復(fù)輔音聲母為次濁復(fù)輔音hj。德格話中以元音起頭的音節(jié)都有喉塞聲母存在,但是由于不具有區(qū)分意義,通常將其歸作零聲母處理[5]。聲母轉(zhuǎn)換設(shè)計如表1所示。
表1 德格話單輔音聲母的SAMPA_KT轉(zhuǎn)換表(部分)Tab.1 De Ge single consonant initials SAMPA_KT translation table (part)
在德格話單輔音聲母SAMPA_KT設(shè)計部分,基本上采用鍵盤上可以直接輸入的符號,其它難以用鍵盤輸入的國際音標(biāo),直接使用和國際音標(biāo)相近的且未使用過的鍵盤符號來標(biāo)記。并且盡可能依據(jù)國際音標(biāo),采用X-SAMPA類似符號,如此則不易引起音位混淆。在設(shè)計德格話的SAMPA_KT系統(tǒng)時,只需要對尚未描述的語音現(xiàn)象進行設(shè)計,比如德格聲母中的喉塞音/?/需要參照X-SAMPA類似符號設(shè)計為鍵盤上的/?/。
2.2韻母設(shè)計
德格話中有8個單元音韻母、6個鼻化韻母和11個包含塞音韻尾的韻母,合計25個韻母,德格話中不存在復(fù)合元音[6]。韻母轉(zhuǎn)換設(shè)計如表2所示。
表2 德格話輔音韻尾韻母的SAMPA_KT轉(zhuǎn)換表(部分)Tab.2 De Ge complex consonant initials SAMPA_KT translation table(part)
德格話中單元音韻母是/ɑ/的機讀音標(biāo)采用符號“/a/”表示,其余基本元音的符號設(shè)計與其它方言區(qū)基本一致。韻母中存在帶塞音韻尾的韻母同樣可分2部分進行設(shè)計,而后將對應(yīng)的方式組合即可,SAMPA_KT其它符號的轉(zhuǎn)換基本上與拉薩話相似。另外,德格話中也存在鼻化元音和長元音,其SAMPA_ KT由附加符號SAMPA加上單元音SAMPA組成。復(fù)合元音的SAMPA_KT分別由對應(yīng)的單元音SAMPA組合來表示。
2.3聲調(diào)處理
康方言區(qū)聲調(diào)的分化時間較晚,且聲母和韻母簡化程度也不一樣,因而只能簡單劃分為2個高調(diào)類和2個低調(diào)類。但是聲調(diào)類型并不穩(wěn)定,而且不同區(qū)域差異較大,所以本項目對此未作更多考慮。
本文選取德格話作為藏語康方言區(qū)的代表,通過歸納整理德格話音系特征,在遵循SAMPA的原則下,參照XSAMPA以及漢語成熟的SAMPA_SC系統(tǒng)完成了藏語德格話SAMPA_KT系統(tǒng)的設(shè)計。藏語機讀音標(biāo)的設(shè)計可以為藏語語音工程的實現(xiàn)奠定良好基礎(chǔ),可以真正實現(xiàn)文音轉(zhuǎn)換功能。同時也為藏語韻律特征研究、語音合成以及語音識別等語音工程領(lǐng)域研究提供科學(xué)依據(jù)。
[1]于洪志,高璐,李永宏,等.藏語機讀音標(biāo)SAMPA_ST的設(shè)計[J].中文信息學(xué)報,2012,26(4):66-72.
[2]張家騄.漢語普通話機讀音標(biāo)SAMPA-SC[J].聲學(xué)學(xué)報(中文版),2009,34(1):81-86.
[3]維基百科.X-SAMPA[EB/OL].[2014-11-02].http://zh. wikipedia.org/wiki/X-SAMPA.
[4]格桑居冕.藏語方言概論[M].北京:民族出版社,2002.
[5]金鵬.藏語簡志[M].北京:人民出版社,1983.
[6]胡坦.藏語(拉薩話)聲調(diào)研究[J].民族語文,1980(1):22-36.
Kang dialect words dege SAMPA_KT design
CHEN Xiaoying
(School of Information Engineering,Tibet University for Nationalities,Xianyang Shanxi 712082,China)
Through the collection of the phonetic system of the Tibetan dege,the paper sums up corresponding phonetic feature.After that,according to the principles of design of SAMPA and with reference to the international phonetic alphabet of Chinese and Tibetan,the paper furtherly designs and implements the Tibetan dege phone read phonetic system.Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering,which can truly realize the text to speech function.
Tibetan;Dege dialect;machine readable phonogram;SAMPA
TP391
A
2095-2163(2016)03-0015-03
2016-04-12
西藏自治區(qū)科技廳項目(2015ZR-14-19)。
陳小瑩(1983-),女,碩士,實驗師,主要研究方向:實驗語音學(xué)。