仁曾卓瑪,朱麗平,2*
1.中央民族大學(xué)信息工程學(xué)院,北京 100081
2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100081
隨著科技快速發(fā)展,越來(lái)越多的智能產(chǎn)品進(jìn)入人們的生活,在提供極大便利的同時(shí),使人們的生活方式變得更加豐富[1]。語(yǔ)音合成,又稱(chēng)文語(yǔ)轉(zhuǎn)換(Text to Speech,TTS)[2]技術(shù),作為實(shí)現(xiàn)人機(jī)交互的重要方法,同樣得到迅速發(fā)展,但目前在市面上卻極少見(jiàn)到支持少數(shù)民族語(yǔ)言的語(yǔ)音合成技術(shù)產(chǎn)品。
藏族是人口較多的少數(shù)民族,擁有本民族的語(yǔ)言和文字。中國(guó)社會(huì)科學(xué)院民族語(yǔ)言調(diào)查組在對(duì)藏語(yǔ)言進(jìn)行調(diào)查考察研究的基礎(chǔ)上提出的衛(wèi)藏方言、康區(qū)方言和安多方言的三分說(shuō)[3]。目前大部分偏遠(yuǎn)藏區(qū)的基礎(chǔ)教育薄弱,80%左右的藏族人只會(huì)聽(tīng)和說(shuō)藏語(yǔ)而不識(shí)文字[4]。因此藏語(yǔ)音合成技術(shù)的發(fā)展對(duì)于藏族人民使用科技發(fā)展產(chǎn)物起到至關(guān)重要的作用。目前科大訊飛實(shí)現(xiàn)了藏語(yǔ)(拉薩話(huà)女聲)語(yǔ)音合成,然而第六次人口普查數(shù)據(jù)[5]顯示,約700萬(wàn)藏族人口中只有近45%的人屬于西藏戶(hù)籍,其余藏族人生活中并不使用拉薩語(yǔ),所以該產(chǎn)品在實(shí)際使用中遠(yuǎn)遠(yuǎn)不能滿(mǎn)足現(xiàn)實(shí)需求。
從近年發(fā)表的文獻(xiàn)[6-8]中發(fā)現(xiàn),當(dāng)前西藏大學(xué)、青海師范大學(xué)、西北師范大學(xué)等高校師生在研究藏語(yǔ)語(yǔ)音合成問(wèn)題時(shí),研究者使用的數(shù)據(jù)集都是通過(guò)網(wǎng)上搜集文本數(shù)據(jù),人工在設(shè)備上錄音的方式完成的。這將會(huì)使研究者將大量時(shí)間和精力花在準(zhǔn)備語(yǔ)料上,且由于條件有限,語(yǔ)料在質(zhì)量上和數(shù)量上都有提升空間。文獻(xiàn)[9]、[10]提供了藏語(yǔ)語(yǔ)音數(shù)據(jù),但是數(shù)據(jù)量只有26MB和666段,且只有衛(wèi)藏方言沒(méi)有安多和康巴方言。
為提高語(yǔ)音合成數(shù)據(jù)集的創(chuàng)建效率,彌補(bǔ)藏語(yǔ)安多和康巴方言語(yǔ)音合成語(yǔ)料的不足,本研究從喜馬拉雅FM聽(tīng)音軟件里中國(guó)西藏網(wǎng)的“藏語(yǔ)播報(bào)”專(zhuān)輯,同時(shí)獲取音頻及對(duì)應(yīng)文本創(chuàng)建藏語(yǔ)方言語(yǔ)音合成數(shù)據(jù)集,并從語(yǔ)言現(xiàn)象的覆蓋率、三大方言的語(yǔ)音特征等方面對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行了分析評(píng)估。本數(shù)據(jù)集共8.02 GB,其中安多方言2.45 GB、康巴方言2.13 GB、衛(wèi)藏方言3.34 GB,壓縮后總數(shù)據(jù)集大小為4.3 GB,內(nèi)容包含新聞、故事、法律、生活常識(shí)等,為藏語(yǔ)語(yǔ)音合成研究和藏語(yǔ)三大方言語(yǔ)音學(xué)研究提供數(shù)據(jù)支撐。
語(yǔ)音合成語(yǔ)料選擇的基本標(biāo)準(zhǔn)是音頻內(nèi)容清晰、發(fā)音純正、音素需覆蓋均衡,音素、音律要準(zhǔn)確,文本數(shù)據(jù)的字詞句和語(yǔ)法要準(zhǔn)確。根據(jù)這一標(biāo)準(zhǔn),通過(guò)大量查閱音頻資料并對(duì)比研究發(fā)現(xiàn),喜馬拉雅FM聽(tīng)音APP里的“藏語(yǔ)播報(bào)”專(zhuān)輯適合作為語(yǔ)音合成語(yǔ)料。該專(zhuān)輯內(nèi)容多包含了近幾年國(guó)內(nèi)的重要新聞、有趣的小故事、普及法律知識(shí)和生活常識(shí)等,且每個(gè)音頻都有相對(duì)應(yīng)的文本內(nèi)容。同一個(gè)文本語(yǔ)料對(duì)應(yīng)有安多、衛(wèi)藏和康巴三種方言音頻,均由專(zhuān)業(yè)的播音員使用專(zhuān)業(yè)的設(shè)備在專(zhuān)用的錄音棚內(nèi)錄制,并由專(zhuān)業(yè)人員剪輯,通過(guò)層層審核而成的。音頻相較于普通錄音內(nèi)容,在讀音、斷句、語(yǔ)法等的準(zhǔn)確性和音頻的清晰度及完整性是毋庸置疑的。
采集的數(shù)據(jù)包括藏語(yǔ)三大方言音頻數(shù)據(jù)及其對(duì)應(yīng)的文本數(shù)據(jù),根據(jù)錄音及播報(bào)時(shí)間將音頻及其對(duì)應(yīng)文本數(shù)據(jù)均分為四部分。
1.2.1 文本數(shù)據(jù)
本研究通過(guò)Python3.8網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從喜馬拉雅FM聽(tīng)音APP“藏語(yǔ)播報(bào)”專(zhuān)輯各音頻播放界面爬取文本內(nèi)容。每一篇文本保存三份,分別以安多、衛(wèi)藏和康巴的拼音縮寫(xiě)和按音頻播報(bào)順序編號(hào)命名,例如,衛(wèi)藏第三部分第一篇文本命名為“wz3-1.txt。由于第一部分前32個(gè)沒(méi)有對(duì)應(yīng)的康巴方言的音頻,所以這部分文本只有兩份,其余三個(gè)部分的文本均各有三份。
1.2.2 音頻數(shù)據(jù)
直接從APP獲取到的音頻是xm格式的文件,該文件格式不屬于音頻文件,xm到wav的格式轉(zhuǎn)換方法繁雜,且轉(zhuǎn)換后的音頻會(huì)受損。經(jīng)嘗試發(fā)現(xiàn)該音頻可以通過(guò)Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取,但本研究采用了更簡(jiǎn)單的獲取方法,用安卓手機(jī)點(diǎn)擊下載即可獲得高質(zhì)量的音頻內(nèi)容。每個(gè)音頻根據(jù)所屬方言和序號(hào)重命名,例如,衛(wèi)藏第三部分第一個(gè)音頻“wz3-1”。
1.3.1 文本數(shù)據(jù)的處理
將每一篇完整的純文本文字內(nèi)容,根據(jù)完整的語(yǔ)義斷句,劃分多個(gè)具有實(shí)際意義的短句。每個(gè)語(yǔ)義完整的句子前添加標(biāo)簽,如,衛(wèi)藏第三部分第一篇第一句“wz3-1-1:”。
1.3.2 音頻數(shù)據(jù)的處理
每一段待處理的音頻為10分鐘左右的完整錄音,根據(jù)已切割好的文本短句對(duì)音頻進(jìn)行切割,得到各文本短句對(duì)應(yīng)的音頻語(yǔ)句。本研究主要使用了Adobe Audition軟件和迅捷音頻轉(zhuǎn)換器完成音頻切割。Adobe Audition軟件簡(jiǎn)稱(chēng)Au,是由Adobe公司開(kāi)發(fā)的一個(gè)專(zhuān)門(mén)的音頻編輯和混合環(huán)境,能提供先進(jìn)的音頻剪輯、混合、控制和效果處理功能[11];迅捷音頻轉(zhuǎn)換器是一款功能豐富的音頻格式處理軟件,支持?jǐn)?shù)多種不同的音頻格式,速度快、批量操作效率高,同時(shí)涵蓋音頻轉(zhuǎn)換、音頻剪切、音頻合并、音頻提取、音頻錄制、音頻變速等多種功能。音頻切割以保證每個(gè)獨(dú)立句子的語(yǔ)義完整性為原則,切割后的音頻長(zhǎng)度為0.1-20秒,其中0.3-5秒之間的最多,音頻格式為wav。
音頻文件的采樣率為44.1kHz,聲道為雙聲道立體聲。分為ad(安多)、kb(康巴)、wz(衛(wèi)藏)三個(gè)音頻文件夾,每個(gè)文件夾按音頻錄制時(shí)間分成4部分內(nèi)容,ab和wz各有157段音頻、kb有125段音頻(缺第一部分的前32段音頻),處理前的每段音頻有7-15分鐘。
圖1為數(shù)據(jù)集結(jié)構(gòu)及整體數(shù)據(jù)內(nèi)容展示,切割后的音頻長(zhǎng)度為0.1-20秒,其中0.3-5秒之間的最多,音頻格式為wav,文本格式為txt。
(1)字丁和語(yǔ)音現(xiàn)象覆蓋均衡性評(píng)估
為評(píng)估創(chuàng)建的語(yǔ)音合成數(shù)據(jù)集是否覆蓋藏語(yǔ)基本音素組合,本研究根據(jù)藏文獨(dú)特音素及構(gòu)字法,通過(guò)統(tǒng)計(jì)數(shù)據(jù)集中藏文字丁的占比,分析各方言的語(yǔ)音現(xiàn)象的覆蓋率;通過(guò)以基字為分類(lèi)標(biāo)準(zhǔn),統(tǒng)計(jì)同一個(gè)基字的字?jǐn)?shù)來(lái)分析語(yǔ)音現(xiàn)象覆蓋的均衡性。
郭須·扎巴軍奶教授用14年時(shí)間研究發(fā)現(xiàn)藏文字丁共有18531[12],薩迦·索南孜摩編著的《正確讀字法注疏》中表示藏文字丁共18745在平常能接觸到的有8000多(包括牧民、農(nóng)民、寺廟、學(xué)校等的領(lǐng)域性常用字),去除特定領(lǐng)域的常用字,在日常生活和交流中常用的藏語(yǔ)字丁約3000左右。對(duì)語(yǔ)料進(jìn)行機(jī)器統(tǒng)計(jì)并經(jīng)過(guò)人工審核校對(duì)后發(fā)現(xiàn),本數(shù)據(jù)集共有137946個(gè)字丁,其中衛(wèi)藏68796個(gè)、安多41199個(gè)、康巴有27951個(gè),去重后衛(wèi)藏有2169個(gè)、安多有1864個(gè)、康巴有1743個(gè)字丁。去重后的字丁數(shù)在三種方言常用字丁中的占比分別為衛(wèi)藏72%、安多62%、康巴58%,對(duì)日常交流使用的字丁覆蓋率均超過(guò)50%,但由于數(shù)據(jù)集規(guī)模不夠大,并未覆蓋所有字丁,后續(xù)將通過(guò)持續(xù)更新數(shù)據(jù)內(nèi)容,進(jìn)一步提高語(yǔ)音現(xiàn)象的覆蓋率。
根據(jù)文獻(xiàn)[13-14]藏語(yǔ)三大方言的不同發(fā)音特征進(jìn)行總結(jié)得到藏語(yǔ)三大方言元音音標(biāo)和輔音音標(biāo),分別如表1和表2所示。
表1 藏語(yǔ)三大方言元音音標(biāo)Table1 Vowel symbols in three Tibetan dialects
表2 藏語(yǔ)三大方言輔音音標(biāo)Table2 Consonant symbols in three Tibetan dialects
圖2為藏文字的音節(jié)結(jié)構(gòu),這是一個(gè)完整的藏文字丁,包含構(gòu)字規(guī)則的所有結(jié)構(gòu),其中除了元音以外的加字和基字都屬于輔音字母,發(fā)音順序?yàn)榍凹幼?、上加字、基字、下加字、元音、后加字、再后加字,最終發(fā)出的音為整個(gè)字丁的音。
以表2中的輔音字母為基字,與加字、元音字母組合,采用機(jī)器分類(lèi)結(jié)合人工審核校對(duì)方法對(duì)藏語(yǔ)三大方言語(yǔ)音現(xiàn)象均衡性進(jìn)行統(tǒng)計(jì)分析,基字及每個(gè)基字在衛(wèi)藏、安多和康巴數(shù)據(jù)集中出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表3所示,單位(次)。
表3 語(yǔ)音現(xiàn)象均衡性分析Table 3 Equilibrium analysis of voice phenomena
表3中所有字丁被分為30類(lèi)。以第3、11、15、13字母為基字的字?jǐn)?shù)最多,而以第20、23、30、29字母為基字的字?jǐn)?shù)較少,但這并不能說(shuō)語(yǔ)音現(xiàn)象的均衡性不好,用藏文字的構(gòu)字法分析后發(fā)現(xiàn),第3、11、15、13等字?jǐn)?shù)多的字母可以和上加字、下加字、前加字、后加字、后后加字組合,且基字與加字元音字組合就有更多的字丁,而20、23、30等字母很少有前加字、上加字、下加字的字丁,且日常生活中極少用。
綜上所述,本數(shù)據(jù)集的語(yǔ)言特征覆蓋率高,且語(yǔ)音現(xiàn)象覆蓋均衡,在使用本數(shù)據(jù)進(jìn)行藏語(yǔ)方言語(yǔ)音合成研究時(shí),可減少因訓(xùn)練數(shù)據(jù)缺失或稀疏引起模型泛化性能較差等問(wèn)題。
(2)文本內(nèi)容專(zhuān)業(yè)性評(píng)估
數(shù)據(jù)來(lái)源為喜馬拉雅FM聽(tīng)音APP“藏語(yǔ)播報(bào)”專(zhuān)輯內(nèi)容,該內(nèi)容轉(zhuǎn)自中國(guó)西藏網(wǎng),中國(guó)西藏網(wǎng)以中、英、藏、德、法5個(gè)文種向海內(nèi)外網(wǎng)友介紹以西藏為主藏區(qū)信息的國(guó)家級(jí)重點(diǎn)新聞網(wǎng)站,是中國(guó)最大的涉藏專(zhuān)題綜合性網(wǎng)站。所以本研究所用的文本在內(nèi)容、結(jié)構(gòu)及語(yǔ)法等方面均能夠確保準(zhǔn)確性和可靠性,且文本覆蓋面廣,涵蓋日常生活、新聞、法律等各方面的內(nèi)容。
(3)音頻質(zhì)量進(jìn)行評(píng)估
本數(shù)據(jù)集的音頻內(nèi)容是由專(zhuān)業(yè)的播音員,在專(zhuān)業(yè)的設(shè)備上錄制,并由專(zhuān)門(mén)的團(tuán)隊(duì)剪輯層層審核之后形成的,所以音頻在發(fā)音、斷句等的準(zhǔn)確性以及語(yǔ)音的清晰度方面是毋庸置疑的。
(4)數(shù)據(jù)集創(chuàng)建人員評(píng)估
整個(gè)數(shù)據(jù)處理是由以藏語(yǔ)為母語(yǔ)的在校大學(xué)生和研究生完成,完成后的數(shù)據(jù)由相互審核完成初審核。初審核主要內(nèi)容包括文本和音頻校對(duì)、音頻內(nèi)容的完整性檢查,修改有誤標(biāo)簽、重新提取不完整的音頻內(nèi)容等,然后由專(zhuān)業(yè)人員做審核校對(duì),最終得到可用于衛(wèi)藏、安多和康巴方言合成語(yǔ)音的數(shù)據(jù)集。
本數(shù)據(jù)集可用于衛(wèi)藏、安多康巴藏語(yǔ)方言語(yǔ)音合成的訓(xùn)練集及測(cè)試集;同時(shí)可以根據(jù)其發(fā)音特點(diǎn)、停頓特點(diǎn)、韻律節(jié)奏特點(diǎn)[9]將其作為藏語(yǔ)三大方言語(yǔ)音學(xué)研究的語(yǔ)料庫(kù);結(jié)合機(jī)器翻譯和人工審核方法,還可以將其拓展為藏語(yǔ)方言與其他語(yǔ)言之間的語(yǔ)音翻譯數(shù)據(jù)集。
致 謝
感謝中國(guó)政法大學(xué)的戚肖克老師對(duì)數(shù)據(jù)集應(yīng)用的建議,藏學(xué)研究院的貢保加同學(xué)文本語(yǔ)義斷句方面的指導(dǎo),感謝信息工程學(xué)院李寧同學(xué)在語(yǔ)音切割方面、鄭怡揚(yáng)同學(xué)在數(shù)據(jù)下載方面提供的指導(dǎo)。
本研究所使用的數(shù)據(jù)來(lái)源為,喜馬拉雅FM聽(tīng)音軟件里中國(guó)西藏網(wǎng)的“藏語(yǔ)播報(bào)”專(zhuān)輯,本數(shù)據(jù)只可用于科研相關(guān)內(nèi)容,不可用于商業(yè)等其他交易內(nèi)容。
數(shù)據(jù)作者分工職責(zé)
朱麗平(1970—),女,湖南省株洲市人,博士,教授,研究方向?yàn)檎Z(yǔ)音翻譯。主要承擔(dān)工作:總體規(guī)劃設(shè)計(jì),數(shù)據(jù)集選擇與采集指導(dǎo),質(zhì)量控制與協(xié)調(diào)管理。
仁曾卓瑪(1995—),女,甘肅省甘南藏族自治州人,本科,中央民族大學(xué)碩士研究生,研究方向?yàn)檎Z(yǔ)音處理。主要承擔(dān)工作:衛(wèi)藏第三四部分?jǐn)?shù)據(jù)處理、安多第三四部分?jǐn)?shù)據(jù)處理、康巴第三四部分?jǐn)?shù)據(jù)處理。
加如(2000—),男,甘肅省甘南藏族自治州人,高中,中央民族大學(xué)本科生。主要承擔(dān)工作:衛(wèi)藏第一部分?jǐn)?shù)據(jù)處理、安多第一部分?jǐn)?shù)據(jù)處理。
次仁羅布(2000—),男,西藏自治區(qū)拉薩市人,高中,中央民族大學(xué)本科生。主要承擔(dān)工作:衛(wèi)藏第二部分?jǐn)?shù)據(jù)處理、安多第二部分?jǐn)?shù)據(jù)處理、康巴第二部分?jǐn)?shù)據(jù)處理。