卡斯木江·卡迪爾, 古麗娜爾·艾力, 艾斯卡爾·艾木都拉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
語(yǔ)音合成是語(yǔ)音處理技術(shù)中的一個(gè)重要方向,國(guó)內(nèi)外對(duì)此進(jìn)行了大量的研究并取得了豐碩的成果[1]。隨著語(yǔ)音合成的發(fā)展,語(yǔ)料庫(kù)及語(yǔ)料庫(kù)方法在國(guó)內(nèi)外均有長(zhǎng)足的進(jìn)步,目前大型語(yǔ)料庫(kù)的建立以及基于語(yǔ)料庫(kù)的研究是國(guó)內(nèi)外語(yǔ)言學(xué)研究的熱點(diǎn)。
語(yǔ)料庫(kù)(Corpus)是指一個(gè)由大量的語(yǔ)言實(shí)際使用的信息組成的,專(zhuān)供語(yǔ)言研究、分析和描述的語(yǔ)言資料庫(kù)[2]。近十多年來(lái),中國(guó)在語(yǔ)料庫(kù)和信息技術(shù)方面取得了令人矚目的進(jìn)步。在語(yǔ)料庫(kù)建設(shè)方面,中國(guó)已建成了第一個(gè)大型的中文計(jì)算機(jī)語(yǔ)料庫(kù),即含7000萬(wàn)字的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的建設(shè)過(guò)程包括語(yǔ)料錄入、核對(duì)、語(yǔ)料自動(dòng)分詞,自動(dòng)標(biāo)注,語(yǔ)料文本分割、合并、標(biāo)記處理等[3]。近年來(lái)維吾爾語(yǔ)語(yǔ)音合成技術(shù)也經(jīng)歷了不同的發(fā)展階段,不同的合成技術(shù)擁有自己的優(yōu)缺點(diǎn)。比如小樣本音素拼接語(yǔ)音合成系統(tǒng)中,拼接單元是音素,因?yàn)槠唇訂卧。魩?kù)容量也小。但是這種合成方法很難提高合成自然度。再如不定長(zhǎng)單元的大語(yǔ)料庫(kù)波形拼接合成系統(tǒng)中,拼接單元是音節(jié)、單詞、句子等不同的合成基元。這種方法的特點(diǎn)是合成單元大,拼接點(diǎn)數(shù)小,保持了原始發(fā)音人的音質(zhì),合成自然度好,缺點(diǎn)是合成語(yǔ)音的效果不穩(wěn)定,建立語(yǔ)料庫(kù)周期太長(zhǎng)。目前的語(yǔ)音合成系統(tǒng)在合成語(yǔ)音的可懂度和自然度方面還存在一些缺陷[4]。
為了改善以上合成方法的欠缺,采取了一些新的方法。把音節(jié)作為主要合成單元,因?yàn)榫S吾爾語(yǔ)中音節(jié)的數(shù)量很大,語(yǔ)料庫(kù)中不能完全包括所有的音節(jié),為了實(shí)現(xiàn)音庫(kù)中不存在的音節(jié)的合成,又建立了音素庫(kù),并且在合成系統(tǒng)中有效的結(jié)合這兩種拼接單元的合成方法,從而達(dá)到了預(yù)期的目標(biāo)。
在語(yǔ)料庫(kù)的建設(shè)中,語(yǔ)音語(yǔ)料庫(kù)的完備性和科學(xué)性十分重要[5]。語(yǔ)音語(yǔ)料庫(kù)的建立主要包括以下4個(gè)主要過(guò)程:文本語(yǔ)料的設(shè)計(jì),文本語(yǔ)料的錄音,聲音語(yǔ)料的標(biāo)注,語(yǔ)音庫(kù)建設(shè)。
如何選取語(yǔ)料,是語(yǔ)料庫(kù)建庫(kù)工作的關(guān)鍵。為了保證建庫(kù)工作的有序有效,保證語(yǔ)料庫(kù)的質(zhì)量,在語(yǔ)料庫(kù)建庫(kù)之前,首先要研究制定好語(yǔ)料的選擇原則[6]。收集語(yǔ)料時(shí)考慮維吾爾語(yǔ)的韻律特點(diǎn),音變現(xiàn)象,音素組合規(guī)則,音節(jié)類(lèi)型等多個(gè)因素。文本取自新聞報(bào)道、小說(shuō)、即新疆日?qǐng)?bào)維文版。將各個(gè)領(lǐng)域搜集的文本作為原始文本語(yǔ)料集、對(duì)其進(jìn)行斷句、去除不合適的語(yǔ)句。然后通過(guò)“維吾爾文字校對(duì)系統(tǒng)”對(duì)句子中的單詞進(jìn)行校對(duì)。在句子結(jié)構(gòu)上存在一些問(wèn)題,要進(jìn)行手工校對(duì),并在句子中出現(xiàn)的數(shù)字、縮寫(xiě)詞和外文符號(hào)改寫(xiě)成標(biāo)準(zhǔn)維吾爾字。
由于收集的文本中存在大量的冗余信息,還多次出現(xiàn)相同的自然語(yǔ)言現(xiàn)象和上下文相關(guān)模型。利用貪婪(Greedy)算法,就是用于從大的句子庫(kù)中自動(dòng)選取最佳覆蓋的句子子集的算法[7]。通過(guò)文本選取算法選取了8989個(gè)句子。
對(duì)挑選出來(lái)的8989個(gè)句子文本語(yǔ)料進(jìn)行了高質(zhì)量錄音。錄音時(shí)對(duì)文本進(jìn)行分段式錄音,并對(duì)錄制的句子進(jìn)行即時(shí)地檢查,有問(wèn)題的地方進(jìn)行補(bǔ)錄。具體錄音規(guī)則如下:
1)聲音文件格式是:*.wav,16 kHz,16 bit,單聲道。
2)語(yǔ)速要一致,一般在4音節(jié)/秒或者80單詞/分鐘左右。
3)按照自然語(yǔ)流的方式朗讀,注意停頓的地方,不要加情感。
4)隔離所有的噪音,尤其是靜音和停頓的地方。
語(yǔ)音語(yǔ)料庫(kù)標(biāo)注的目的是從語(yǔ)音語(yǔ)料中切分出一個(gè)個(gè)合成單元。語(yǔ)音切分是指根據(jù)語(yǔ)音標(biāo)注序列,將語(yǔ)音信號(hào)切分成時(shí)序相鄰的一系列與語(yǔ)音學(xué)標(biāo)注單元(如音素,音節(jié),單詞等)相應(yīng)的音段,并將相應(yīng)的時(shí)問(wèn)信息添加到標(biāo)注文件里?;蟹謽?biāo)注是根據(jù)實(shí)驗(yàn)語(yǔ)音學(xué)方面的知識(shí),以語(yǔ)音在語(yǔ)譜圖上的特征為主,聽(tīng)覺(jué)和時(shí)域圖為輔進(jìn)行切分標(biāo)注。聲音標(biāo)注層次有音素、音節(jié)、單詞、韻律詞、韻律短語(yǔ)、語(yǔ)調(diào)短語(yǔ)和句子7個(gè)層次。
為了減少工作切分工作量,采取了半自動(dòng)方法,即先進(jìn)行自動(dòng)切分,通過(guò)HMM 單音素模型實(shí)現(xiàn)語(yǔ)料庫(kù)音素層的自動(dòng)標(biāo)注,準(zhǔn)確一致的切分除了音素邊界[8],然后再經(jīng)過(guò)人工調(diào)整。在此基礎(chǔ)上結(jié)合維吾爾語(yǔ)的音節(jié)劃分和單詞劃分規(guī)則就可以得到音節(jié),單詞和句子的自動(dòng)標(biāo)注信息,自動(dòng)切分標(biāo)注時(shí)還出現(xiàn)某些音位有變音、增音、脫落、弱化、清化、濁化、同化等現(xiàn)象,將進(jìn)行手工修改。還對(duì)長(zhǎng)短靜音(sp)邊界進(jìn)行調(diào)整、添加或者刪除。其他3個(gè)韻律層次以發(fā)音人員的聲音為主,結(jié)合收集的劃分規(guī)則進(jìn)行手工標(biāo)注。維吾爾語(yǔ)語(yǔ)音標(biāo)注結(jié)果(一個(gè)句子為例)如圖1,圖2和表1所示。
圖1 維吾爾語(yǔ)標(biāo)注文件的波形
圖2 維吾爾語(yǔ)標(biāo)注文件的頻譜
表1 標(biāo)注文件層次及時(shí)長(zhǎng)
維吾爾語(yǔ)中最小發(fā)聲單元是音節(jié),1個(gè)音節(jié)是由元音和零至3個(gè)輔音構(gòu)成的。用字母“V”代表元音,用字母“C”代表輔音,根據(jù)維吾爾語(yǔ)音節(jié)的構(gòu)成規(guī)則,維吾爾語(yǔ)中有6種常用的音節(jié)格式:即V,VC,CV,CVC,VCC,CVCC,除了以上的音節(jié)格式以外還有一些從其他語(yǔ)言中引進(jìn)的音節(jié)格式:CCV,CVV,CCVC,CVVC,CCVCC 等。
建立音節(jié)庫(kù)時(shí),首先提取標(biāo)注數(shù)據(jù)中所有音節(jié)樣本的特征參數(shù),拼接所有的聲音文件。提取的音節(jié)特征有音節(jié)包含的元音、在韻律短語(yǔ)中的位置、時(shí)長(zhǎng)、前接音素、后接音素、音高向量、音高高點(diǎn)、音高低點(diǎn)、音節(jié)在音庫(kù)中的開(kāi)始和結(jié)束時(shí)間等特征。特征提取由Praat軟件、matlab和VC++ 6.0編程環(huán)境中實(shí)現(xiàn)。
最后得到的是拼接所有聲音文件數(shù)據(jù)的文件,同時(shí)形成所有音節(jié)信息的索引文件,每個(gè)音節(jié)在索引文件中的編號(hào)文件和每個(gè)音節(jié)在編號(hào)文件中的開(kāi)始位置和結(jié)束位文件等4個(gè)文件。在數(shù)據(jù)庫(kù)共有8989個(gè)句子,音節(jié)庫(kù)總共包含3456個(gè)音節(jié),維吾爾語(yǔ)的固有音節(jié)類(lèi)型具體的分布情況如表2 所示。
表2 “維吾爾語(yǔ)音節(jié)庫(kù)”常用音節(jié)分布情況
維吾爾語(yǔ)中音素是最小的語(yǔ)音單位,音素有元音和輔音兩大類(lèi)。在32個(gè)字母中有8個(gè)元音字母,24個(gè)輔音字母。建立音素庫(kù)時(shí)所做的提取參數(shù),建立索引工作跟建立音節(jié)庫(kù)的工作相仿。主要區(qū)別是這部分工作針對(duì)標(biāo)注數(shù)據(jù)中的音素層次進(jìn)行參數(shù)提取。提取的參數(shù)不一樣,但參數(shù)提取方法、產(chǎn)生的文件類(lèi)型和開(kāi)發(fā)環(huán)境都一樣。
在數(shù)據(jù)庫(kù)中存在的8989個(gè)句子中,就有32個(gè)不同音素,其分布情況如表3所示。
表3 “維吾爾語(yǔ)音素庫(kù)”中的音素分布情況
近幾年來(lái),隨著語(yǔ)音學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展,維吾爾語(yǔ)語(yǔ)音合成技術(shù)取得了巨大的進(jìn)步。目前,以波形合成為基礎(chǔ)的語(yǔ)音合成技術(shù)已經(jīng)可以合成清晰度,可懂度較好的語(yǔ)音,然而在合成語(yǔ)音的自然度方面仍需進(jìn)一步提高。進(jìn)一步的提高了語(yǔ)音合成的自然度從維吾爾語(yǔ)的語(yǔ)音特點(diǎn)出發(fā)[9-10],對(duì)維吾爾語(yǔ)音節(jié),音素進(jìn)行研究,建立了音節(jié)庫(kù)和音素庫(kù)。由于語(yǔ)料標(biāo)注工作需要細(xì)心、花費(fèi)時(shí)間周期較長(zhǎng),所以其標(biāo)注準(zhǔn)確率和一致性方面存在一些問(wèn)題,需要進(jìn)一步提高。
[1]段凱宇,俞一彪,石汝杰.基于基音同步幀疊接的吳語(yǔ)語(yǔ)音合成[J].通信技術(shù),2002(03):1-3.
[2]譚鍵.語(yǔ)料庫(kù)及語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展與應(yīng)用[J].西北工業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,25(01):61-63.
[3]劉連元.現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)研制[J].語(yǔ)言文字應(yīng)用,1996(03):2-8.
[4]俞一彪,段凱宇,石汝杰.吳語(yǔ)文語(yǔ)轉(zhuǎn)換中的語(yǔ)音韻律控制[J].通信技術(shù),2002(10):1-3,9.
[5]蔡蓮紅,蔡銳,吳志勇,等.語(yǔ)音合成語(yǔ)料庫(kù)的設(shè)計(jì)與聲學(xué)特征分析[C]//2002年全國(guó)聲學(xué)學(xué)術(shù)會(huì)議.桂林:中國(guó)聲學(xué)學(xué)會(huì),2002:375-376.
[6]陳小瑩,陳展,華侃,等.語(yǔ)音語(yǔ)料庫(kù)的設(shè)計(jì)研究[J].科技信息,2008(36):5-6.
[7]姑麗加瑪麗·麥麥提艾力,艾斯卡爾·肉孜,艾斯卡爾·艾木都拉.三音素模型的維吾爾語(yǔ)最佳文本選取算法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(18):242-244.
[8]阿依木尼薩·胡甫爾,艾斯卡爾·艾木都拉.面向語(yǔ)音合成的維吾爾語(yǔ)音素自動(dòng)切分算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(09):18-21.
[9]胡曉荷.周光召和柳傳志對(duì)“語(yǔ)音云”寄予厚望——移動(dòng)互聯(lián)網(wǎng)步入“語(yǔ)音云”時(shí)代[J].信息安全與通信保密,2011(12):39-41.
[10]龐雄昌,王喆.基于 GDTW+SVM的語(yǔ)音識(shí)別[J].信息安全與通信保密,2011(12):39-41.