基于語料庫的藏語語音合成單元選擇算法

2017-11-27 08:57:45才讓卓瑪才智杰

中文信息學報 2017年5期

關鍵詞：藏語覆蓋率音節(jié)

才讓卓瑪,才智杰

(青海師范大學計算機學院，青海西寧 810008)

基于語料庫的藏語語音合成單元選擇算法

才讓卓瑪,才智杰

(青海師范大學計算機學院，青海西寧 810008)

在基于語料庫的語音合成方法中，語音合成單元選擇的優(yōu)劣直接影響合成語音的自然度和流暢性。該文針對藏語言文字的特點，提出以基本構件、組合構件、字、詞及句單元相融合的混合單元語音合成策略，并提出了藏語語音合成混合單元選擇算法。主觀評價與客觀評測數(shù)據(jù)表明該策略與算法有效和合理，各類合成單元在開放語料上的覆蓋率與語音合成效果均達到預期的目標。

語音合成；單元選擇；基本構件；組合構件

1 引言

基于單元選擇的語音合成技術[1]采用真人語音片斷作為合成單元，能合成高音質(zhì)的語音，這種方法是目前應用比較成熟和成功的語音合成方法。為了提高語音合成的自然度和可懂度，在其基礎上發(fā)展出了基于語料庫的語音合成技術(Corpus-based Text to Speech)[2-3]。單元選擇決定著語料庫的大小，是建立結構合理、內(nèi)容完整且規(guī)模適中的語料庫的基礎，因而是基于語料庫的語音合成的關鍵。一般地，如果語料庫足夠大，庫中包含豐富的合成單元，就可以合成音質(zhì)清晰、自然流暢的語音；反之，如果語料庫存在數(shù)據(jù)稀疏問題，就會影響合成語音的自然度與可懂度。大規(guī)模語料庫的優(yōu)勢顯而易見，但對大規(guī)模的語料庫進行存儲、加載、搜索比較耗時，且對系統(tǒng)硬件要求較高。因此，如何在保證語音合成質(zhì)量的前提下適當減小語料庫[4-7]，即如何選擇合成單元，使基于語料庫的語音合成方法具有更好的適應性成為目前國內(nèi)外研究的熱點。

相對于漢語、英語、日語、德語等，藏語語音合成研究比較滯后?；谡Z料庫的藏語語音合成單元選擇方面，研究者們先后提出兩種不同的方法。方法一以音節(jié)為最小合成單元，通過打分將3 000個音節(jié)、10 000條詞語和一些獨白句及情景對話納入語料庫[8]；方法二通過將藏文音節(jié)分成前后兩部分，建立基于半音節(jié)的藏語連續(xù)語音語料庫[9]。顯而易見，方法一通過采用音節(jié)、詞語、句等較大的合成單元，保留了語音單元的完整性，但必定會因為語料庫有限的覆蓋率而無法合成自然、流暢的語音；方法二在一定程度上解決了語料庫數(shù)據(jù)稀疏問題，但卻由于采用較小且單一的合成單元而產(chǎn)生較多的語音拼接點，導致語音質(zhì)量下降。鑒于此，本文提出基本構件、組合構件、音節(jié)、詞及句等多級單元相融合的混合單元選擇方法，并給出藏語語音合成的單元選擇策略和算法。其基本思想是：基于多級的混合模式合成單元，合成時采用大單元優(yōu)先原則，即大單元不存在時用小單元進行合成。與前兩種方法相比，本文提出的藏語合成單元選擇算法，不僅減少了合成語音的拼接點，增強了語音的平滑度與自然度，同時提高了單元選擇的自由度及語料庫的覆蓋率。從而有效地保留了語音合成時大單元的完整性與小單元的靈活性與魯棒性。

本文第一節(jié)簡述了單元選擇在基于語料庫的語音合成中的重要性，并對比分析了現(xiàn)有藏語語音合成單元的選擇方法。第二節(jié)通過藏文字的基本結構和藏文字拼讀順序，分析了藏文音節(jié)結構，提出建立混合單元語料庫的策略。第三節(jié)給出了藏語語音合成單元選擇算法，第四節(jié)詳述了主、客觀實驗評測結果，第五節(jié)對全文進行了總結。

2 藏文音節(jié)結構分析

藏文是以30個輔音和4個元音字符為構件的拼音文字，一般一個藏文字在音韻上對應一個音節(jié)，其基本結構如圖1所示。為便于描述，本文將構成藏文字的各個字符(前加字、上加字、基字、下加字、后加字、再后加字和元音)稱作基本構件(basic component)，與基字縱向排列的基本構件的組合(上加字、基字、下加字和元音)稱作組合構件(combinational component)。

圖1 藏文字基本結構示意圖

圖2 藏文字拼讀順序示意圖

由于構成藏文字的元、輔音字符的有限性，準確切分藏文字的所有基本構件對應的音素，合理總結出音素合成音節(jié)的規(guī)律，便有望用有限的音素合成任意的音節(jié)。然而僅以音素作為語音合成單元而不用音節(jié)、詞語、句等大單元，大量的音素拼接會產(chǎn)生過多的語音拼接點，從而導致合成語音在某些拼接點處失真。藏文文法[11]指出： “字成詞，詞成句，句達意?！庇纱丝梢?，藏文文本從小到大依次可由基本構件、組合構件、字詞及句等五個層次構成。因此，我們嘗試將基本構件的語音看作語音結構的最小單位(即音素)，從語料庫中抽取基本構件、組合構件、高頻字、高頻詞、短語及常用句作為語音合成文本單元，建立混合單元語料庫。合成時采用大單元優(yōu)先原則，在大單元不存在時選擇較小單元，以確保大單元語音的自然度和小單元語音的靈活性與魯棒性。

3 藏語語音合成混合單元選擇算法

考慮到語音合成系統(tǒng)的通用性，保證語料庫單元具有較強的適用性及合理性，單元選擇的文本內(nèi)容涵蓋社會科學、自然科學、工程科學等領域，主要來源于報刊、雜志、教材與網(wǎng)絡。其中120KB(共 2 206條句子)藏語句子用來選擇句單元，2 000萬音節(jié)左右的文本用來確定詞、字、組合構件及基本構件等單元。

算法1句抽取算法

Typedef Struct Alternative_DB

{String[] Sentence;

Int N; //N表示句子Sentence中所含詞數(shù)

};

SU_ Algorithm (TagFile):

step1:讀句

step2:將Sentence中的詞依次放入數(shù)組W中

step3:篩選詞數(shù)不超過δ的句放入到Alternative_DB中 //選擇參數(shù)δ由句長確定

step4:讀備選句

step5:查看常用詞在句中出現(xiàn)的次數(shù)

step6:抽取次數(shù)大于參數(shù)θ的句子 //參數(shù)θ由句中所含常用詞個數(shù)確定。

算法2詞、字、組合構件單元選擇算法

組合構件由基字與上加字或下加字或元音上下疊加構成，因此從語料中統(tǒng)計出構字能力較強的組合構件(即語料中出現(xiàn)頻次較高的組合構件)建立組合構件單元庫。

藏文字由構件或組合構件組成，它是構成藏文文本的基本單位。因此，選擇藏文字單元需從語料中統(tǒng)計出現(xiàn)代規(guī)范藏文字并建立頻度統(tǒng)計表，剔出已選入構件單元庫與組合構件單元庫的單元，然后選取頻次較高的藏文字作為字單元庫。

藏語中詞的個數(shù)比較多，為了從海量的詞庫中篩選出合適的詞單元，從統(tǒng)計出的詞庫中先剔出已選入字單元庫的詞，然后將詞庫中的高頻詞選入詞單元庫。為了便于描述，本文將組合構件、字與詞的字表庫定義為相同結構，其字表庫CCWS_DB(combination component and words DB)定義及詞、字、組合構件抽取算法如下：

Typedef Struct CCWS_DB

{String[] Str;//存放組合構件、字及詞

Int N; //描述頻次};

WSCU_ Algorithm (TagFile):

Step1:從標注文本中讀句子

Step2:識別詞

Step3:詞頻次統(tǒng)計并將CCWS_DB中滿足參數(shù)γ的詞保存到詞單元庫WSU_DB中

Step4:識字

Step5:識別緊縮字后將字和緊縮字分別保存

Step6:字頻統(tǒng)計后放入到庫CCWS _DB中

Step7:藏文字構件分解

Step8:成字性緊縮字頻次統(tǒng)計

Step9:將符合選擇參數(shù)β的字單元保存到字單元庫WU_DB中

Step10:統(tǒng)計組合構件

Step11: 將符合選擇參數(shù)α的組合構件保存到組合構件單元庫CCU_DB中

算法3基本構件單元選擇

Typedef Struct BCU_DB

{string[]BC; //存放基本構件單元

Int TYPE; //描述基本構件位置特征}

CU_ Algorithm (TagFile) :

Step1:識字

Step2:構件分解

Step3:將元音、前加字、上加字、下加字、后加字、再后加字及基字等58個基本構件保存到BCU_DB

Step4:統(tǒng)計僅帶下加字的組合構件

Step5:將僅帶下加字的組合構件存入BCU_DB

4 實驗結果與分析

為了考查單元選擇的正確性與合理性，從網(wǎng)絡上下載了三段不同風格與內(nèi)容的開放語料(青海藏語廣播電視網(wǎng)的新聞聯(lián)播、人生感言及人物傳記，語料大小分別為15KB、22KB和31KB，共計68KB)，對抽取的句、詞、字及組合構件單元在開放語料上的覆蓋率及合成效果進行測試。評測實驗從主、客觀兩方面進行?？陀^評測的目標是：句單元的覆蓋率達10%左右，詞單元的覆蓋率達20%左右，字單元的覆蓋率達35%左右，組合構件單元的覆蓋率達15%左右，組合構件、字、詞及句等大單元的綜合覆蓋率達80%左右；主觀度量采用MOS(Mean Opinion Score)分。

4.1 客觀評測分析

通過調(diào)整參數(shù)進行測試發(fā)現(xiàn)，參數(shù)α取0.001，β取0.001，γ取0.016時，得到336個組合構件單元、1 732個字單元、950個詞單元，各類單元在24KB測試語料上的覆蓋率分別為13.91%、39.90%、22.70%；句單元選擇參數(shù)δ取6，θ取2時，可抽取278個短語，短語單元覆蓋率達5.78%。各類單元選擇測試數(shù)據(jù)如表1所示。對抽取的句、詞、字及組合構件單元在三個開放語料上的覆蓋率分別進行測試，各類單元在不同語料中的綜合測試數(shù)據(jù)見表2。

表1 各類單元選擇測試數(shù)據(jù)表

表2 各類單元在開放語料中的測試數(shù)據(jù)

由表2中數(shù)據(jù)可知，句、詞、字及組合構件單元在測試語A(新聞聯(lián)播)中的覆蓋率分別為16.40%、14.20%、39.70%和13.14%，綜合覆蓋率為83.44%；在測試語B(人生感言)中的覆蓋率分別為10.03%、14.47%、40.12%和20.34%，綜合覆蓋率為84.96%；在測試語C(人物傳記)中的覆蓋率分別為9.98%、18.19%、35.36%和17.25%，綜合覆蓋率為80.78%。綜合測試數(shù)據(jù)表明：所選擇的各類單元在不同語料上的覆蓋率很接近，且達到預期的目標。

4.2 主觀評測分析

首先，對選入語料庫中的詞、字、組合構件及構件等單元進行造句，造句時確保每個單元在所造語句中至少出現(xiàn)一次。然后對所有句子進行錄音并切分出相應語音單元。大多數(shù)基于語料庫的漢語合成系統(tǒng)以音節(jié)作為最小單元[12-13]，考慮到藏漢兩種語言的相似性(以音節(jié)為基本語音單位)，本文以音節(jié)為最小單元的語料庫系統(tǒng)為基線系統(tǒng)(簡稱系統(tǒng)Ⅰ)，與本文的系統(tǒng)(簡稱系統(tǒng)Ⅱ)所合成的語音進行測聽對比。由五位測聽員對三個語料在不同的系統(tǒng)下的合成效果進行了測聽。

表3是不同測試語料在系統(tǒng)Ⅰ(系統(tǒng)語料庫包含的最小單元為音節(jié))上合成語音的MOS, 表4是不同測試語料在系統(tǒng)Ⅱ(系統(tǒng)語料庫包含的最小單元為音素)上合成的語音的MOS。

表3 系統(tǒng)Ⅰ的MOS值

表4 系統(tǒng)Ⅱ的MOS值

由表3和表4可見，系統(tǒng)Ⅰ中語料A合成效果最好，其次是語料B；而系統(tǒng)Ⅱ中語料B合成效果最好，其次是語料A。分析其原因不難發(fā)現(xiàn)(表2)，系統(tǒng)Ⅰ的句、詞及字單元覆蓋率在語料A上優(yōu)于語料B，而語料B上的句、詞及字單元覆蓋率稍優(yōu)于語料C；系統(tǒng)Ⅱ的較大單元(句、詞、字及組合構件等單元)覆蓋率在語料B上最優(yōu)，其次為語料A。整體來看，系統(tǒng)Ⅱ的合成效果明顯優(yōu)于系統(tǒng)Ⅰ的合成效果，系統(tǒng)Ⅰ與系統(tǒng)Ⅱ的MOS結果見圖3。

圖3 系統(tǒng)I與系統(tǒng)II的MOS

5 結束語

本文針對藏語言文字的特性，提出以構件、組合構件、音節(jié)、詞及句單元相融合的混合單元語音合成策略，提出了藏語語音合成混合單元選擇算法。主、客觀評測數(shù)據(jù)表明該策略與算法有效和合理，算法有效地保留了語音合成中大單元的完整性和小單元的靈活性與魯棒性，各類合成單元在開放語料上的覆蓋率與語音合成效果達到預期的目標。下一步的工作是進一步擴充和優(yōu)化語料庫，提高語音切分與平滑處理技術。

[1] Hun A, Black A. Unit selection in a concatenative speech synthesis system using a large speech database[C]//Proceedings of the ICASSP 1996, Vol.1,1996: 373-376.

[2] Chu M, Peng H, Yang H, et al. Selection non-uniform units from a very large corpus for concatenative speech synthesizer[C]//Proceedings of the ICASSP 2001, 2001: 785-788.

[3] Christina L B. Large scale evaluation of corpus-based synthesizers: results and lessons from the blizzard challenge 2005[C]//Proceedings of the Interspeech 2005.

[4] Rutten P, Aylett M, Fackrell J, et al. A statistically motivated database pruning technique for unit selection synthesis[C]//Proceedings of the ICSLP2002. Denver, 2002: 125-128.

[5] 胡郁,凌震華,戴禮榮.基于聲學統(tǒng)計建模的語音合成研究[J]. 中文信息學報,2011,25(6):127-135.

[6] 張巍,吳曉如,趙志偉,等. 基于虛擬不定長的語音庫裁剪方法[J].軟件學報, 2006,17(5):983-990.

[7] 章森,劉磊,刁麓弘.大規(guī)模語音語料庫及其在TTS中應用的幾個問題[J]. 計算機學報,2010,33(4):687-696.

[8] 李永宏,于洪志.安多藏語語音合成語料庫設計[J].西北民族大學學報,2006,27(1):36-39.

[9] 楊陽蕊,李永宏,于洪志.基于半音節(jié)的藏語連續(xù)語音語料庫設計[C]//第十屆全國人機語音通訊學術會議論文集,2009.

[10] 江荻,龍從軍.藏文字符研究[M]. 北京：社會科學院文獻出版社,2010.

[11] 色多五世羅桑崔臣嘉措.藏文文法根本頌色多氏大疏[M].北京：民族出版社,2007.

[12] 蔡蓮紅,崔丹丹,蔡銳.漢語普通話合成語料庫TH_Coss的建設與分析[J]. 中文信息學報,2007,21(3):94-99.

[13] 張大軍,陳肇雄,黃河燕.漢語文語轉(zhuǎn)換系統(tǒng)地址映射算法的設計與實現(xiàn)[J]. 軟件學報,2002,13(1):105-110.

才讓卓瑪(1970—)，博士，教授，碩士生導師，主要研究領域為人機語音交互、藏文信息處理。

E-mail： cr-zhuoma@163.com

才智杰(1970—)，教授,碩士生導師，主要研究領域為藏文信息處理、藏語自然語言處理。

E-mail: czjqhsd@163.com

UnitSelectionAlgorismforCorpus-basedTibetanSpeechSynthesis

CAI Rangzhuoma, CAI Zhijie

(College of Computer Science, Qinghai Normal University， Xining, Qinghai 810008，China)

In the corpus-based text to speech system, the choices of unit selection impact directly on the quality of synthesized speech. By analyzing the features of Tibetan language, this paper proposes not only a hybrid strategy which mixed components, characters, words and sentences, but also a corpus-based unit selection algorism for Tibetan Speech Synthesis. Subjective assessment results and objective evaluation results indicate that the algorithms are effective, the coverage and synthesized speech of units are satisfactory reached expected target.

speech synthesis; unit selection; basic components; combinational components

1003-0077(2017)05-0059-05

TP391

2015-03-23定稿日期2016-05-10

國家自然科學基金(61262051,61163018);國家社科基金(16BYY167,15BYY167,14BYY132,13BYY141);教育部“春暉計劃”(Z2016077);青海省基礎研究項目(2017-ZJ-767)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語料庫的藏語語音合成單元選擇算法

1 引言

2 藏文音節(jié)結構分析

3 藏語語音合成混合單元選擇算法

4 實驗結果與分析

5 結束語