藍(lán)楊
文化是一個(gè)國(guó)家、一個(gè)民族的靈魂。文化興,國(guó)運(yùn)興;文化強(qiáng),民族強(qiáng)。黨的十八大以來(lái),習(xí)近平總書(shū)記多次闡述中華文化與文化自信的重要性。沒(méi)有高度的文化自信,沒(méi)有文化的繁榮興盛,就沒(méi)有中華民族的偉大復(fù)興。
增強(qiáng)國(guó)際話(huà)語(yǔ)權(quán),傳播好中國(guó)聲音,必須堅(jiān)定我們的話(huà)語(yǔ)自信。習(xí)近平總書(shū)記指出:“我們有本事做好中國(guó)的事情,還沒(méi)有本事講好中國(guó)的故事?我們應(yīng)該有這個(gè)信心!”話(huà)語(yǔ)自信是對(duì)中國(guó)發(fā)展理論、道路、制度和文化的充分肯定,是對(duì)中國(guó)話(huà)語(yǔ)體系科學(xué)內(nèi)容及其表達(dá)能力的堅(jiān)定信念。說(shuō)到底,話(huà)語(yǔ)自信是中國(guó)自信在中國(guó)話(huà)語(yǔ)體系上的表現(xiàn)。中國(guó)自信是話(huà)語(yǔ)自信的基礎(chǔ)和保障,話(huà)語(yǔ)自信是中國(guó)自信的反映和升華。在中華民族的文明進(jìn)程中,語(yǔ)言文字更是我們獨(dú)特的精神標(biāo)識(shí)和文化印記?!吨袊?guó)漢字聽(tīng)寫(xiě)大會(huì)》《中國(guó)成語(yǔ)大會(huì)》《中國(guó)詩(shī)詞大會(huì)》等節(jié)目的播出和《寫(xiě)意中國(guó)—探尋漢字起源》等活動(dòng)的舉辦引起了人們對(duì)傳統(tǒng)文化的關(guān)注,掀起了“漢字熱”和“詩(shī)詞熱”,讓全社會(huì)看到了語(yǔ)言文字的魅力,堅(jiān)定了中華文化自信。
如何開(kāi)發(fā)與利用計(jì)算機(jī)和語(yǔ)言翻譯系統(tǒng),更好地傳播中國(guó)聲音、傳達(dá)中國(guó)意思,使國(guó)際社會(huì)更好地理解和認(rèn)同中國(guó)文化,為構(gòu)建人類(lèi)命運(yùn)共同體貢獻(xiàn)應(yīng)有的力量,成為擺在我們面前的一個(gè)現(xiàn)實(shí)問(wèn)題。
語(yǔ)音合成系統(tǒng)基本架構(gòu)
一般語(yǔ)音合成系統(tǒng)包含語(yǔ)言、音韻、合成單元三個(gè)資料庫(kù)以及語(yǔ)言分析、音韻預(yù)估、合成單元選取及合成器四個(gè)模塊。首先,輸入文章被送入語(yǔ)言處理模塊,在語(yǔ)音資料庫(kù)的幫助下進(jìn)行斷句、斷詞、構(gòu)詞甚至語(yǔ)法及語(yǔ)意分析等處理,得到正確的讀音。其次,語(yǔ)言處理結(jié)果被送入音韻預(yù)估模塊,?用上下文及讀音等信息,加上音韻資料庫(kù)中的韻律規(guī)則或訓(xùn)練獲得的參數(shù),計(jì)算可能的音韻值,如音長(zhǎng)、停頓、音量及基頻值等。再次,合成單元選取模塊根據(jù)所需音及預(yù)估的音韻值從合成單元資料庫(kù)中選取最合適的合成單元。最后,合成器依據(jù)音韻預(yù)估模塊預(yù)估的音韻值調(diào)整合成單元選取模塊選擇的合成單元,加以適當(dāng)?shù)倪B接后輸出合成語(yǔ)音。
三個(gè)資料庫(kù)
(1)語(yǔ)音資料庫(kù),用來(lái)儲(chǔ)存語(yǔ)言處理分析所需資料,包括字音表、詞音表、詞類(lèi)、詞頻等。
(2)音韻資料庫(kù),用來(lái)儲(chǔ)存預(yù)估音長(zhǎng)、音強(qiáng)、基周、停頓時(shí)間等音韻資料所需規(guī)則或模型參數(shù)。這些模型參數(shù)在訓(xùn)練階段求得。
(3)合成單元資料庫(kù),用來(lái)儲(chǔ)存語(yǔ)音基本單元,可能是音素、雙音素、三音素、半音節(jié)、單音節(jié)、詞或者更長(zhǎng)的單元。單元的長(zhǎng)度可能固定,也可能不固定,甚至同一個(gè)單元有幾個(gè)不同韻律的合成單元版本供選擇。一般所選語(yǔ)音基本單元越大,合成的接點(diǎn)越少,合成語(yǔ)音更容易保持清晰自然,但所需單元更多,儲(chǔ)存空間也更大。目前,許多中文系統(tǒng)采用單音節(jié)的字作為合成單元,主要原因是中文為一字一音的語(yǔ)言,但是因?yàn)槿狈B音的考慮,無(wú)法合成很自然的聲音。
四個(gè)模塊
第一,語(yǔ)言處理模塊。其主要功能是在語(yǔ)音資料庫(kù)的幫助下分析輸入的文章,適當(dāng)斷句、斷詞、構(gòu)詞甚至分析語(yǔ)法結(jié)構(gòu)及語(yǔ)意,找出文章中每個(gè)字的正確讀音,并且提供詞邊界、換氣邊界等相關(guān)信息給音韻預(yù)估模塊使用。首先,開(kāi)展智能前處理,將輸入文句中的符號(hào)或數(shù)字先轉(zhuǎn)成恰當(dāng)?shù)奈淖帧?如“有1/3的人無(wú)家可歸”中的“1/3”代表“三分之一”,而不是“一月三日”;“1234567”可能讀成電話(huà)號(hào)碼“一二三四五六七”或者金額“一百二十三萬(wàn)四千五百六十七”。如果把“1/3的人無(wú)家可歸”讀成“有一月三日的人無(wú)家可歸”或把“電話(huà)號(hào)碼為1234567”讀成“電話(huà)號(hào)碼為一百二十三萬(wàn)四千五百六十七”,一定會(huì)讓聽(tīng)者一頭霧水。另外,中文的詞與詞之間沒(méi)有分隔符,不論是分析語(yǔ)法結(jié)構(gòu)還是朗讀都要先找到詞。先將字串分成數(shù)個(gè)包含可能詞匯的大詞段,然后根據(jù)最長(zhǎng)匹配法則在每個(gè)詞段里選取最有可能的詞匯組合。中文詞的變化很多,如果把所有可能的詞都列入辭典中,不僅會(huì)導(dǎo)致辭典所占記憶容量過(guò)于龐大,還會(huì)減慢在辭典中搜尋詞群的速度,影響整個(gè)語(yǔ)音合成系統(tǒng)的效率。為了縮短查詢(xún)辭典的時(shí)間,屬于非規(guī)律性字串組合的詞及出現(xiàn)頻率較高的詞應(yīng)放進(jìn)辭典中,有規(guī)律的部分則在構(gòu)詞處理中組合成詞。中文的三種主要構(gòu)詞方式是附加、重疊及復(fù)合。決定詞群后,可由詞庫(kù)中的標(biāo)音找到正確讀音,不在詞庫(kù)中的可以用字轉(zhuǎn)音表處理,但仍可能有多音字的問(wèn)題。中文大約有10%的字有兩個(gè)以上發(fā)音,但大部分可由辭典及詞頻信息(選用最常用的發(fā)音)解決,錯(cuò)誤的概率在2%~3%。這個(gè)數(shù)字也許并不顯眼,但只要計(jì)算機(jī)讀錯(cuò)音,大部分人都會(huì)關(guān)注這個(gè)錯(cuò)誤。因此,一個(gè)語(yǔ)音合成系統(tǒng)要想被大眾廣泛接受,必須將錯(cuò)音比例降到最低。
第二,音韻預(yù)估模塊。語(yǔ)音合成系統(tǒng)必須發(fā)音自然,抑揚(yáng)頓挫。音韻預(yù)估模塊的目的是從讀音、語(yǔ)法結(jié)構(gòu)、語(yǔ)意等方面找出適當(dāng)?shù)姆椒A(yù)估合成語(yǔ)句的抑揚(yáng)頓挫,包括對(duì)聲調(diào)、音長(zhǎng)、音量及停頓等參數(shù)的預(yù)估。早期音韻處理多采用語(yǔ)言學(xué)家經(jīng)過(guò)長(zhǎng)期收集觀察總結(jié)出的規(guī)則,但這種方法費(fèi)時(shí)且難以規(guī)避許多因素的影響;近期偏向統(tǒng)計(jì)方法(即資料庫(kù)訓(xùn)練法)。一般采用音韻模型代表音韻受各因素影響的情形,先以大量語(yǔ)料訓(xùn)練此模型,使其具有韻律特性,然后將其應(yīng)用于語(yǔ)音合成系統(tǒng)預(yù)估音韻值。統(tǒng)計(jì)方法包括回歸模型、類(lèi)神經(jīng)網(wǎng)絡(luò)、期望最大化等,成效都不錯(cuò)。統(tǒng)計(jì)模型可以幫助我們定量決定每個(gè)因素影響音韻值的程度。對(duì)于聲調(diào)、音長(zhǎng)、音量及停頓而言,不同的因素有不同程度的影響??赡苡绊懸繇嵉囊蛩匕ǎ海?)目前及相鄰的聲調(diào)、目前及相鄰的音素、子音、元音、音節(jié)等;(2)詞類(lèi)(如名詞詞組、動(dòng)詞詞組);(3)詞組(換氣群及句中的位置等)。
第三,合成單元選取模塊。該模塊是從資料庫(kù)中選擇合適的合成單元連接產(chǎn)生需要的語(yǔ)句,在語(yǔ)音合成系統(tǒng)中經(jīng)常用來(lái)提高聲音質(zhì)量。單元選取技術(shù)主要是從語(yǔ)言學(xué)特性或音韻特性中找到一些選擇的標(biāo)準(zhǔn),以選出最符合目標(biāo)值的最恰當(dāng)單元。如果單元語(yǔ)料庫(kù)夠大,含有足夠多不同上下文及韻律變化的組合,就不需要調(diào)整單元或只要小幅度調(diào)整,減小了調(diào)整單元導(dǎo)致的聲音質(zhì)量下降幅度。因此,這種方式合成的語(yǔ)音通常比單一單元合成的語(yǔ)音更清晰自然。合成單元選取的方法很多,例如樹(shù)狀結(jié)構(gòu)、隱馬爾可夫模型。有些研究通過(guò)定義成本的方式選取,?如使用結(jié)構(gòu)句法成本。
第四,合成器。人類(lèi)的發(fā)聲器官就像樂(lè)器一樣,可以發(fā)出很多種聲音,但也有許多先天的限制??諝庥煞尾克统觯绻菨嵋?,聲帶會(huì)震動(dòng),氣流在發(fā)聲腔道內(nèi)產(chǎn)生共振現(xiàn)象,然后從嘴部釋放出來(lái),產(chǎn)生聲波,傳到我們的耳朵里。如果是清音,激發(fā)源為亂流的雜音形態(tài)。以不同的發(fā)音位置及方式可發(fā)出不同的聲音。但若以簡(jiǎn)單的線(xiàn)性發(fā)聲管模型模仿人類(lèi)的發(fā)音,仍有不足。因此,許多分析合成模型或合成器被提出。合成方法除了用一組不同口徑相連的發(fā)聲管模擬聲道外,還有貝爾實(shí)驗(yàn)室的荷爾·杜德利在1939年提出的聲碼器、共振峰合成器、時(shí)域上的基周同步疊加法及弦波模型等。以單脈沖/噪音激發(fā)的線(xiàn)性預(yù)估編碼為例,這種基于口腔模型的合成器可以隨意調(diào)整基周周期,但合成語(yǔ)音質(zhì)量受限于單脈沖激發(fā)的聲帶模型,語(yǔ)音較粗糙。質(zhì)量好一點(diǎn)的是以多脈沖激發(fā)或碼本激發(fā)的方式。之后受到歡迎的是波形合成器,可在時(shí)域直接調(diào)整語(yǔ)音。一般若是調(diào)整音韻的范圍不大,原始語(yǔ)料的音質(zhì)不會(huì)被破壞。因此,合成語(yǔ)音的質(zhì)量比線(xiàn)性預(yù)估編碼合成器好。基周同步疊加法是一套在時(shí)域直接修改語(yǔ)音的算法,比較簡(jiǎn)單又能得到不錯(cuò)的音質(zhì),因此受到歡迎。
其他語(yǔ)音合成方向
以大量語(yǔ)料庫(kù)為基礎(chǔ)的傳統(tǒng)語(yǔ)音合成的優(yōu)點(diǎn)有資料庫(kù)所需內(nèi)存較小、系統(tǒng)可移植性較高,缺點(diǎn)是合成語(yǔ)音自然度較難提升,因?yàn)橐獙⒂邢薜恼Z(yǔ)音單元合成自然語(yǔ)音,語(yǔ)音單元必須經(jīng)過(guò)轉(zhuǎn)換調(diào)整,而經(jīng)過(guò)大幅調(diào)整的單元不易保持音質(zhì),且選擇太少,難以達(dá)到自然的要求。于是,更龐大的音韻資料庫(kù)被用來(lái)訓(xùn)練音韻參數(shù)模型,更多語(yǔ)音合成單元得到應(yīng)用。計(jì)算機(jī)硬件的運(yùn)算速度越來(lái)越快,儲(chǔ)存容量越來(lái)越大,價(jià)格卻越來(lái)越低,設(shè)計(jì)一個(gè)可容納自然語(yǔ)言變化的龐大資料庫(kù)成為可能,以大量語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)音合成系統(tǒng)應(yīng)運(yùn)而生。由于語(yǔ)音單元包括許多變化,在單元相接時(shí)不用對(duì)合成單元做太大改動(dòng)就能產(chǎn)生接近自然原音的合成語(yǔ)音。
情緒語(yǔ)音合成。語(yǔ)音一向是最方便的人機(jī)接口。計(jì)算機(jī)語(yǔ)音在過(guò)去幾年里進(jìn)步不少,變得更加易懂、易聽(tīng)。但跟真人相比,聲音里還是缺少一些元素,那就是情緒。人類(lèi)情感的表達(dá)方式很多,透過(guò)語(yǔ)音的情緒表達(dá)是溝通的重要部分。如果能在計(jì)算機(jī)合成聲音中加入情緒,就能讓合成語(yǔ)音更真實(shí),也能表達(dá)得更好。目前,已經(jīng)有相當(dāng)多的學(xué)者及機(jī)構(gòu)投入情緒語(yǔ)音合成的研究。
歌聲合成。唱歌和說(shuō)話(huà)都是人類(lèi)溝通及表達(dá)的自然方式。歌聲合成的應(yīng)用包括作曲、娛樂(lè)、教學(xué)等領(lǐng)域。歌聲合成雖與語(yǔ)音合成一樣是處理人類(lèi)發(fā)聲的問(wèn)題,卻有著和語(yǔ)音合成不一樣的困難。在歌聲合成中,作曲者已經(jīng)在譜中提供了韻律這方面的信息,但若只依照譜上的標(biāo)準(zhǔn)韻律值合成,無(wú)法產(chǎn)生自然的歌聲。我們?cè)诔皇赘钑r(shí),會(huì)試著表達(dá)歌詞,而職業(yè)歌者賦予了歌聲許多藝術(shù)成分,使歌聲的變化比說(shuō)話(huà)更動(dòng)態(tài)化、更復(fù)雜,且變化的范圍更大。
結(jié) 語(yǔ)
雖然目前的合成語(yǔ)音和真人聲音之間還有距離,但讓計(jì)算機(jī)說(shuō)話(huà)不是實(shí)現(xiàn)不了的夢(mèng)想。其實(shí)在許多播報(bào)系統(tǒng)中,語(yǔ)音合成都已進(jìn)入實(shí)用階段。這項(xiàng)科技會(huì)用在家電、影片、電玩、動(dòng)畫(huà)、機(jī)器人等我們能想到或想不到的領(lǐng)域,發(fā)出栩栩如生的聲音。
(作者單位:浙江警官職業(yè)學(xué)院)