作者簡介:沙曉婭(1980-),女,江蘇蘇州人,碩士,講師,研究方向:德語語言學,跨文化交際。
摘要:隨著人工智能技術(shù)的廣泛應(yīng)用,語音合成取得了重大技術(shù)進步。該文從語言學角度出發(fā),采用語音處理領(lǐng)域客觀定量的數(shù)據(jù)分析方法,對比分析了傳統(tǒng)德語合成語音、新一代人工智能增強的合成語音及自然語音之間的差異及其原因,并進一步探討了德語語音合成技術(shù)的改進方向。研究結(jié)果表明,相較于傳統(tǒng)語音合成技術(shù),基于人工智能的新一代德語語音合成技術(shù)在多項反映自然聽感的指標上均展現(xiàn)出不錯的提升。然而,由于德語本身獨特的韻律特征,新一代人工智能合成語音在準確度和自然度方面與自然語音之間仍存在一定差距,具體體現(xiàn)在整體韻律、詞間間隔以及音強變化等方面。
關(guān)鍵詞:德語;合成語音;自然語音;人工智能;深度學習;TTS
中圖分類號:H33 文獻標識碼:A 文章編號:2096-4110(2024)06(b)-0025-07
A Study of Differences between German Synthesized Speech and Natural Speech
SHA Xiaoya
(School of Foreign Languages, East China University of Science and Technology, Shanghai, 200237, China)
Abstract: With the wide application of artificial intelligence technology, speech synthesis has made significant technological progress. From a linguistic perspective, this paper adopts the method of objective quantitative data analysis in the field of speech processing to compare and analyse the differences and reasons between traditional German synthesized speech, new generation AI synthesized speech and natural speech, and further discusses the direction of improvement in German speech synthesis. The results of the study show that the new generation of AI-based German speech synthesis does show a good improvement over traditional German speech synthesis in terms of indicators reflecting the natural sense of hearing. However, due to the unique prosodic characteristics of the German language, there are still differences in accuracy and naturalness compared to natural speech in terms of overall rhythm, inter-word spacing and variations in sound intensity.
Key words: German; Synthetic speech; Natural speech; Artificial Intelligence; Deep Learning; TTS
語音合成(Text to Speech,簡稱TTS),是將語言文字信息轉(zhuǎn)變?yōu)檎Z音輸出的技術(shù)。隨著語言學和計算機軟件技術(shù)的快速發(fā)展,語音合成技術(shù)的研究和應(yīng)用取得了顯著的進步。尤其是近年來基于深度學習的人工智能技術(shù)加速變革,使得語音合成質(zhì)量大幅提升,逐漸接近自然語音的水平。
2016年,谷歌DeepMind實驗室推出WaveNet模型,采用真人語音作為訓練素材,合成的英語語音在韻律、重讀和語調(diào)上較傳統(tǒng)合成語音有了大幅改善[1],在學術(shù)界及工業(yè)界引起了廣泛關(guān)注。同年底,亞馬遜推出了基于人工智能技術(shù)的Polly語音合成技術(shù)應(yīng)用,能夠支持包括德語在內(nèi)的多種語言。幾乎同時,百度研究院也發(fā)布了Deep Voice語言合成技術(shù)。多家業(yè)界領(lǐng)先的人工智能研究機構(gòu)的關(guān)注與科研投入,使得人工智能助力下的語音合成技術(shù)向更深層次邁出了重要的一步。
在深度學習訓練機制的基礎(chǔ)上,新一代人工智能技術(shù)持續(xù)發(fā)展,為語音合成帶來了前所未有的機遇。語音合成技術(shù)的水平,與工業(yè)界的應(yīng)用支持、研究投入、使用廣泛度及可訓練材料的豐富程度等因素密切相關(guān)。得益于研究與使用的廣泛性,英語語音合成技術(shù)的發(fā)展水平尤為突出。德語與英語同屬日耳曼語系,因此在研究和實際應(yīng)用領(lǐng)域,德語語音合成技術(shù)往往采用與英語相似的方法,甚至只是改變詞典庫后直接套用。然而,德語和英語在重音、語調(diào)、詞形構(gòu)成和語法變化等方面又存在著不少差異。
因此,新一代人工智能技術(shù)的引入對德語語音合成是否有確實的改善,德語合成語音與自然語音的差異目前處于何種水平,新一代德語語音合成技術(shù)有何實用性和不足之處,都是亟待研究和分析的問題。有鑒于此,本文采用語音處理領(lǐng)域客觀定量的數(shù)據(jù)分析方法,對比傳統(tǒng)德語合成語音、新一代人工智能合成語音與自然語音這三者的差異,旨在深入探討上述問題。
1 語音合成技術(shù)簡介
傳統(tǒng)語音合成技術(shù)主要基于參數(shù)化合成與拼接式合成這兩種方法。參數(shù)化語音合成是歷史最悠久且最常用的語音合成方法,即利用人工建立的模型對某種語言的聲音進行排列、組合構(gòu)成語句,通過設(shè)計一套算法從文字建立語音。而拼接式語音合成,則是先錄制標準朗讀者真人發(fā)音的大量語音片段,建立一個大型語料庫,然后從中選擇并拼接成完整的語句。傳統(tǒng)德語語音合成技術(shù)基本都是建立在上述兩種方法或其變形基礎(chǔ)之上,典型的微軟德語TTS技術(shù)便是這兩種方法的結(jié)合。
基于深度學習的新一代人工智能語音合成技術(shù)則與此不同,它利用真人錄制的聲音剪輯和相應(yīng)的文字及標注作為訓練集,由程序本身來辨別語言的內(nèi)容、組合及其構(gòu)成模式,在給定的訓練材料下學習其內(nèi)容和發(fā)音方式,通過深度學習來推廣所有文字到語音合成。這種深度學習再推廣的模式與傳統(tǒng)語音合成技術(shù)的重要差別在于,傳統(tǒng)參數(shù)化或拼接式的合成都是在給定的人工設(shè)計的某種算法條件下的學習推廣,人工智能深度學習卻不采用固定的人工設(shè)計的合成算法,而是由學習程序本身模擬人腦思維方式,根據(jù)訓練材料分析并提取特征和規(guī)律,在此基礎(chǔ)上繼續(xù)推廣衍生。
不管采用哪種具體技術(shù),語音合成有兩個最主要目標:準確度和自然感[2]。準確度是指合成語音聽覺上的清晰度和能夠被提取出正確信息或者被準確理解的程度。自然感是指語言表達的隱含信息,如語音韻律特征、整體風格一致性、地域特點或語言層面的其他微妙細節(jié)。語音合成的最終目標就是在準確度和自然感上達到與標準朗讀者的自然語音無聽覺差別的水平。對于語言工作者而言,準確度的研究主要關(guān)注合成語音的詞、句是否達到了標準發(fā)音的要求,而自然感的研究則側(cè)重于合成語音與自然語音在細節(jié)表達上是否存在差異。
2 德語合成語音與自然語音的對比分析
2.1 對比分析環(huán)境
傳統(tǒng)德語語音合成采用傳統(tǒng)語音合成領(lǐng)域應(yīng)用最廣泛的微軟德語語音合成系統(tǒng),通過多年的應(yīng)用發(fā)展、更新迭代和較多用戶的使用已經(jīng)達到了傳統(tǒng)語音合成領(lǐng)域的較高水平。
人工智能增強的德語語音合成,則采用亞馬遜Polly德語語音合成程序,這是一款使用深度學習人工智能技術(shù)將文本轉(zhuǎn)換為語音的云端程序,可以通過在線提交文本由亞馬遜語音服務(wù)器合成語音音頻文件。
真人自然語音則采用母語發(fā)音者的德語標準語音。
所有合成語音和自然語音均采用女聲,通過設(shè)定語速和音強范圍,使合成語音完成同一內(nèi)容的時長和音量與真人自然語音基本相同。
客觀對比實驗過程采用Praat軟件,這是一款功能完善、可擴展的語音學專業(yè)軟件,主要用于對數(shù)字化的語音文件或信號進行分析、處理、標注等的實驗中。
2.2 對比結(jié)果分析
采集一系列真人自然語音的音頻文件和它對應(yīng)的文字作為比較對象,將對應(yīng)文字分別輸入微軟德語TTS和亞馬遜德語Polly進行語音合成,將對應(yīng)相同文字的傳統(tǒng)德語合成語音、人工智能增強的合成語音及真人自然語音這三個音頻作為一個比較組,采用Praat語音分析工具對每組音頻分別提取聲學波形圖、音強曲線圖和音調(diào)曲線圖,共對比分析了20組音頻。
以其中一個比較組為例,文字信息如下:
Ich habe z. B. eine chinesische Tandempartnerin. Sie hilft mir beim Chinesischlernen und ich helfe ihr bei der deutschen Sprache. (比如我有一個中文語言伙伴,她幫我學中文,我?guī)退龑W德語。)
從聲學波形圖上可以看出,圖1是基于傳統(tǒng)語音合成技術(shù)的德語合成語音,帶有強烈的規(guī)則化時間間隔特性,每個詞及元音之間的間隔非常規(guī)整,除非出現(xiàn)標點符號,否則詞語間隔基本一致。在聽覺上,過于規(guī)律化的吐詞導致自然感降低,影響了直觀的聽覺體驗。
而圖2是基于人工智能增強的合成語音,在這一點上有了明顯改善。其結(jié)果已經(jīng)不再表現(xiàn)出明顯、生硬的規(guī)則化間隔,具備在不同詞語間選擇性的連讀特性和擬人化的連接轉(zhuǎn)換,趨近于真人。
分析圖3可以發(fā)現(xiàn),真人自然語音的發(fā)音間隔在波形上看似更加隨機,但這種隨機并非完全無序,而是伴隨強調(diào)位置、個人情緒、氣息轉(zhuǎn)換及詞語使用習慣的不同出現(xiàn),這也是自然語音具備自然聽感的重要因素。
從音強曲線圖的波形幅度來看,圖4所示基于傳統(tǒng)技術(shù)的合成語音有如下特點:各單詞間的波動不大,語句中不同單詞的最高音強基本保持穩(wěn)定,最低音強和變化趨勢也具有近似重復的規(guī)律性。
分析圖5可以發(fā)現(xiàn),基于新一代人工智能的合成語音也表現(xiàn)出各單詞間波動低的特點,同時語句中不同詞語的最高音強保持穩(wěn)定的程度與傳統(tǒng)語音合成結(jié)果類似。但最低音強和變化趨勢的重復規(guī)律性有所降低,這說明其對不同詞語的處理已經(jīng)具備一定的上下文全局視野,能根據(jù)詞語強調(diào)位置和語境進行合理調(diào)整。
從圖6真人自然語音的音強曲線圖可以看到,語句中不同詞語的最高音強、最低音強和升降趨勢都有比較明顯的變化,最高音強包絡(luò)呈現(xiàn)明顯的起伏,這種起伏變化與真人發(fā)音器官的強調(diào)位置、個人情緒等因素密切相關(guān),伴隨真人發(fā)音器官輸出能量的改變而變化,是自然語音在重讀和韻律上的外在表現(xiàn)。
觀察三者的聲學波形圖和音強曲線圖,發(fā)現(xiàn)一個值得注意的現(xiàn)象。從整體來看,基于人工智能的新一代合成語音實現(xiàn)了一定的改善;但從個別詞語的波形圖和音強曲線中卻可以發(fā)現(xiàn),傳統(tǒng)的語音合成結(jié)果中也能看到近似于真人自然語音的音強曲線特點。這一現(xiàn)象說明,基于傳統(tǒng)參數(shù)化合成或拼接式合成的方式,個別詞語的發(fā)音也可以達到不錯的合成效果;基于人工智能深度學習的新一代語音合成機制在元音和詞語級別上并沒有明顯的改善,其更顯著的進步主要體現(xiàn)在對上下文的整體性和全局性效果的精細處理上。
通過Praat軟件分別提取三個音頻的音調(diào)曲線圖。如圖7所示,基于傳統(tǒng)技術(shù)的合成語音的音調(diào)曲線在句中變化幅度不大,句中語調(diào)處于平穩(wěn)狀態(tài),往往是在句首或句尾進行與上下文沒有明確關(guān)聯(lián)的機械性語調(diào)變化。而語調(diào)的變化是傳達人類情緒的重要因素,所以這容易給聽者帶來一種缺乏情感的機械化聽覺感受。
與圖7相比,圖8是基于人工智能的新一代合成語音,其單詞內(nèi)的音調(diào)變化幅度雖不明顯,但整句的音調(diào)起伏有一定程度的增大,句子整體上的音調(diào)變化更接近圖9真人自然語音所呈現(xiàn)出的音調(diào)曲線。
當然,圖9所示的真人自然語音的音調(diào)曲線隨情緒和韻律的變化表現(xiàn)出更大范圍的波動。這說明,基于人工智能的新一代語音合成系統(tǒng)在反映情緒和韻律的整體自然感方面已經(jīng)取得了進步,但與真人自然語音還存在一定差距。
在20個比較組的對比分析中可以觀察到,上述差異具有普遍性。研究各比較組的聲學波形圖、音強曲線圖和音調(diào)曲線圖可以明顯看到,基于人工智能的新一代德語語音合成技術(shù)在反映自然聽感的指標上確實較傳統(tǒng)德語語音合成技術(shù)有顯著的提升,但其結(jié)果與真人自然語音相比還存在一定的差別。
3 德語韻律特征及其對語音合成的影響
德語合成語音的評價標準眾多,主要集中在準確度和自然感兩大方面。而這兩方面都涉及韻律學的研究內(nèi)容,即語音的韻律特征,如重音、節(jié)奏、停頓、語調(diào)等具體因素[3]。只有符合德語本身的韻律特征,才能得到準確且自然的德語合成語音。
3.1 詞重音
德語屬于重音節(jié)奏語言,輕重音節(jié)交替出現(xiàn),帶有鮮明的重讀與非重讀對比的語言韻律特征[4]。重讀音節(jié)通常會被拉伸,發(fā)音更加響亮、精準,相比之下,非重讀音節(jié)的發(fā)音速度更快,響度較弱[5]。要把握好德語單詞發(fā)音的準確性,關(guān)鍵在于正確區(qū)分重讀和非重讀。同一個單詞,重讀音節(jié)的位置一旦發(fā)生改變,含義也大相徑庭,讀錯就會引起歧義或誤解[6]。
對于語音合成而言,文字信息是唯一的輸入信息,因此這種同形異義、重音不同的現(xiàn)象只能通過上下文進行判定和識別。對基于參數(shù)化或拼接式的傳統(tǒng)語音合成技術(shù)而言,其文字到語音的轉(zhuǎn)換主要基于詞的范圍,對句甚至是段的上下文幾乎沒有感知,所以要識別和正確處理這種語言現(xiàn)象難度很高。
而采用人工智能增強的新一代語音合成技術(shù)通過深度學習可以實現(xiàn)一定程度的全局化感知,具備實現(xiàn)更高質(zhì)量語音合成的原理基礎(chǔ),但與此同時,對訓練材料也提出了更高的要求,只有在獲取足夠多的重讀變化語境材料并經(jīng)過訓練之后才會輸出更可靠的結(jié)果。
3.2 句重音
德語句子會區(qū)分重讀單詞和非重讀單詞,判斷句重音是正確理解句子含義和正確朗讀句子的基礎(chǔ)。德語句子的韻律節(jié)奏就是通過重讀單詞和非重讀單詞的對比而實現(xiàn)的[7]。這也就是為什么德語自然語音讓聽者感覺整體是連貫的、有節(jié)奏感的,而不只是連續(xù)單詞機械輸出的生硬效果。
為了突出說話者想要表達的語義重點,德語句重音會落在需要強調(diào)或?qū)Ρ鹊木渥映煞稚希湟糸L、音高和吐字清晰度與其他句子成分形成鮮明對比。句重音位置不同,句意就會有很大差異[8]。這也是德語語音合成的一個處理難點。
傳統(tǒng)的語音合成技術(shù)在處理句重音時難以實現(xiàn)豐富合理的變化,會把句中每個單詞都讀得非常清晰,缺乏輕重對比和德語特有的節(jié)奏感,讓聽者無法判斷出強調(diào)的部分或新鮮的信息,聽覺感受生硬、不自然。
而對于新一代人工智能增強的語音合成程序而言,其具備一定的上下文掃描及內(nèi)容匹配能力,使其判斷出同樣文字要強調(diào)的不同語義重點成為可能,因此其語句重音控制從理論上來講要遠遠優(yōu)于傳統(tǒng)德語語音合成。當然,要真正達到這一目標,需要進一步擴大其上下文掃描范圍、增強德語材料的訓練深度及存儲計算能力,而就目前的計算機存儲計算能力和訓練深度的有限性而言,合成結(jié)果還難以做到完美。
3.3 節(jié)奏與停頓
德語是一種重音節(jié)奏語言,無論重音之間的音節(jié)有多少,重音間隔出現(xiàn)的時間基本相同,這就形成了德語發(fā)音所特有的重讀、輕讀交替出現(xiàn)的節(jié)奏感。重讀單詞在發(fā)音時會將與自己在語義和語法上聯(lián)系緊密的單詞聚攏到一起,形成一個節(jié)奏語群。作為一個相對獨立的整體,它包含了識別語義的韻律特征,通過停頓和其他節(jié)奏語群相區(qū)別,使聽者更加容易理解語義內(nèi)容[9]。
句中停頓的位置,一般也就是節(jié)奏語群的分界點,它使語群之間的關(guān)系更加清晰,也體現(xiàn)了德語的韻律和語法結(jié)構(gòu)。停頓的位置不同,表達的語義也不同,聽者對于同一內(nèi)容就可能產(chǎn)生完全不同的理解。將成句或成段的內(nèi)容合成語音,必須掌握好恰當?shù)耐nD才能使節(jié)奏自然,聽感舒適。節(jié)奏控制和停頓分布主要由句子結(jié)構(gòu)和說話意圖決定。句子結(jié)構(gòu)相對比較容易判斷,但說話者的意圖是很難識別的,這也是傳統(tǒng)語音合成技術(shù)幾乎不可能攻克的難點。
而基于人工智能的深度學習機制則有可能通過足夠的學習訓練材料對文體和內(nèi)容識別做出一定程度的衍生判斷,從難度上來講,這種理解要求對當前人工智能語音合成能力提出了相當大的挑戰(zhàn)。就目前的人工智能技術(shù)水平而言,其輸出結(jié)果還處于近似模仿的階段,雖然已表現(xiàn)出一定的擬人化節(jié)奏,但要完全做到停頓恰當、節(jié)奏自然還言之尚早。特別是在朗讀長句子時,合成語音與真人自然語音的差距更為明顯。
3.4 語調(diào)
德語的語調(diào)一般分為降調(diào)、升調(diào)和平調(diào)。在語言實際運用中,語調(diào)與句型雖然有一定的對應(yīng)關(guān)系,但并非一成不變,聽者可以通過語調(diào)來判斷語義是陳述事實、提出疑問、給出請求、表達感慨或者抒發(fā)某種特定的情感[10]。而針對具體交際場景選取適合的句子語調(diào),也正是語音合成的又一難點所在。傳統(tǒng)德語語音合成技術(shù)多采用判定標點符號的規(guī)則來生成語調(diào),基本無法做到場景識別和上下文感知,所以語調(diào)變化容易生硬、不準確。
而人工智能技術(shù)雖然能夠結(jié)合上下文進行分析判定,但對情緒和隱含含義內(nèi)容識別的要求目前暫時超出了現(xiàn)今人工智能語音合成的技術(shù)范疇,在這種條件下要輸出完全符合情境的自然語調(diào)仍然具有很高難度。
4 結(jié)束語
通過對傳統(tǒng)德語語音合成技術(shù)、人工智能增強的德語語音合成技術(shù)和德語自然語音的對比分析,可以發(fā)現(xiàn),新一代以深度學習為基礎(chǔ)的人工智能語音合成技術(shù)確實表現(xiàn)出了相較于傳統(tǒng)語音合成技術(shù)的明顯進步,在一般應(yīng)用場合已經(jīng)能夠接近真人自然語音的效果,但是在準確度和自然度方面與自然語音還存在著整體韻律、詞間間隔和音強變化上的差異,能夠被客觀分析軟件感知。總體來說,新一代基于人工智能的德語語音合成還沒有完全達到自然語音的同等水平,與之相比存在一定差距。
當然,基于人工智能深度學習的語音合成程序具有自我學習和持續(xù)進步的能力。外語工作者可以通過更多的人工標記和修正,為深度學習的計算機模型提供更加豐富準確的訓練材料,訓練語音合成程序產(chǎn)生更擬人的發(fā)音,使語音合成更加精準、自然。有理由相信,隨著人工智能技術(shù)的不斷進步,上述準確度和自然度方面的差異將會逐漸縮小,甚至有可能最終消失。
隨著語音合成技術(shù)的日益完善,外語教學也受到巨大影響。語音合成技術(shù)有著真人發(fā)音無法比擬的任意可重聽、任意可編排的特性,這使得學習者能夠更便捷地進行求教與學習,因此,它可以作為外語教學過程中的有益補充與輔助手段,為學生提供更多樣化、個性化的學習體驗。
語音合成技術(shù)是通過計算機實現(xiàn)跨語言交流的重要環(huán)節(jié)之一,人工智能對語音領(lǐng)域的影響已經(jīng)顯現(xiàn),這是無法回避或阻止的趨勢。那么,如何有效發(fā)揮自身在語言理解方面的優(yōu)勢,借助計算機去完成相關(guān)的數(shù)據(jù)與技術(shù)處理工作,積極推進人工智能在外語教學領(lǐng)域的創(chuàng)新發(fā)展,這是外語工作者應(yīng)當探索并為之努力的新方向。
參考文獻
[1] OORD A,DIELEMAN S,ZEN H,et al. WaveNet: A generative model for raw audio[EB/OL].(2016-09-12)[2024-01-21]. https://arxiv.org/pdf/1609.03499.pdf.
[2] KAESLIN H.Systematische Gewinnung und Verkettung von Diphonelementen für die Synthese deutscher Standardsprache[D]. Zürich: Eidgen?觟ssische Technische Hochschule Zürich,1985.
[3] 胡開寶,尚文博.語言學與語言智能[J].華東師范大學學報(哲學社會科學版),2022,54(2):103-109,176.
[4] BU?覻MANN H. Lexikon der Sprachwissenschaft[M]. Stuttgart:Kr?觟ner,1990:64.
[5] STOCK E. Deutsche Intonation[M]. Leipzig:Langenscheidt,1996:69.
[6] 錢文彩.漢德語言使用對比研究[M].北京:外語教學與研究出版社,2001:24.
[7] KOHLER K. Einführung in die Phonetik des Deutschen[M]. Berlin: Erich Schmidt,1995:117.
[8] 楊軍,陳樺.二語口語產(chǎn)出的韻律:與朗讀相關(guān)的文獻研究[J].外語研究,2005(5):46-50.
[9] HIRSCHFELD U,NEUBER B. Prosodie im Fremdsprachenunterricht Deutsch-ein überblick über Terminologie, Mer-kmale und Funktionen[J].Deutsch als Fremdsprache,2010(47):10-16.
[10]ESSEN O. Grundzüge der hochdeutschen Satzintonation[M]. Ratingen,Düsseldorf:A. Henn,1956:18.