話(huà)語(yǔ)自信構(gòu)建下的語(yǔ)音翻譯合成技術(shù)

2023-03-26 04:45:51藍(lán)楊

秀江南 2023年9期

藍(lán)楊

文化是一個(gè)國(guó)家、一個(gè)民族的靈魂。文化興，國(guó)運(yùn)興；文化強(qiáng)，民族強(qiáng)。黨的十八大以來(lái)，習(xí)近平總書(shū)記多次闡述中華文化與文化自信的重要性。沒(méi)有高度的文化自信，沒(méi)有文化的繁榮興盛，就沒(méi)有中華民族的偉大復(fù)興。

增強(qiáng)國(guó)際話(huà)語(yǔ)權(quán)，傳播好中國(guó)聲音，必須堅(jiān)定我們的話(huà)語(yǔ)自信。習(xí)近平總書(shū)記指出：“我們有本事做好中國(guó)的事情，還沒(méi)有本事講好中國(guó)的故事？我們應(yīng)該有這個(gè)信心！”話(huà)語(yǔ)自信是對(duì)中國(guó)發(fā)展理論、道路、制度和文化的充分肯定，是對(duì)中國(guó)話(huà)語(yǔ)體系科學(xué)內(nèi)容及其表達(dá)能力的堅(jiān)定信念。說(shuō)到底，話(huà)語(yǔ)自信是中國(guó)自信在中國(guó)話(huà)語(yǔ)體系上的表現(xiàn)。中國(guó)自信是話(huà)語(yǔ)自信的基礎(chǔ)和保障，話(huà)語(yǔ)自信是中國(guó)自信的反映和升華。在中華民族的文明進(jìn)程中，語(yǔ)言文字更是我們獨(dú)特的精神標(biāo)識(shí)和文化印記?！吨袊?guó)漢字聽(tīng)寫(xiě)大會(huì)》《中國(guó)成語(yǔ)大會(huì)》《中國(guó)詩(shī)詞大會(huì)》等節(jié)目的播出和《寫(xiě)意中國(guó)—探尋漢字起源》等活動(dòng)的舉辦引起了人們對(duì)傳統(tǒng)文化的關(guān)注，掀起了“漢字熱”和“詩(shī)詞熱”，讓全社會(huì)看到了語(yǔ)言文字的魅力，堅(jiān)定了中華文化自信。

如何開(kāi)發(fā)與利用計(jì)算機(jī)和語(yǔ)言翻譯系統(tǒng)，更好地傳播中國(guó)聲音、傳達(dá)中國(guó)意思，使國(guó)際社會(huì)更好地理解和認(rèn)同中國(guó)文化，為構(gòu)建人類(lèi)命運(yùn)共同體貢獻(xiàn)應(yīng)有的力量，成為擺在我們面前的一個(gè)現(xiàn)實(shí)問(wèn)題。

語(yǔ)音合成系統(tǒng)基本架構(gòu)

一般語(yǔ)音合成系統(tǒng)包含語(yǔ)言、音韻、合成單元三個(gè)資料庫(kù)以及語(yǔ)言分析、音韻預(yù)估、合成單元選取及合成器四個(gè)模塊。首先，輸入文章被送入語(yǔ)言處理模塊，在語(yǔ)音資料庫(kù)的幫助下進(jìn)行斷句、斷詞、構(gòu)詞甚至語(yǔ)法及語(yǔ)意分析等處理，得到正確的讀音。其次，語(yǔ)言處理結(jié)果被送入音韻預(yù)估模塊，?用上下文及讀音等信息，加上音韻資料庫(kù)中的韻律規(guī)則或訓(xùn)練獲得的參數(shù)，計(jì)算可能的音韻值，如音長(zhǎng)、停頓、音量及基頻值等。再次，合成單元選取模塊根據(jù)所需音及預(yù)估的音韻值從合成單元資料庫(kù)中選取最合適的合成單元。最后，合成器依據(jù)音韻預(yù)估模塊預(yù)估的音韻值調(diào)整合成單元選取模塊選擇的合成單元，加以適當(dāng)?shù)倪B接后輸出合成語(yǔ)音。

三個(gè)資料庫(kù)

（1）語(yǔ)音資料庫(kù)，用來(lái)儲(chǔ)存語(yǔ)言處理分析所需資料，包括字音表、詞音表、詞類(lèi)、詞頻等。

（2）音韻資料庫(kù)，用來(lái)儲(chǔ)存預(yù)估音長(zhǎng)、音強(qiáng)、基周、停頓時(shí)間等音韻資料所需規(guī)則或模型參數(shù)。這些模型參數(shù)在訓(xùn)練階段求得。

（3）合成單元資料庫(kù)，用來(lái)儲(chǔ)存語(yǔ)音基本單元，可能是音素、雙音素、三音素、半音節(jié)、單音節(jié)、詞或者更長(zhǎng)的單元。單元的長(zhǎng)度可能固定，也可能不固定，甚至同一個(gè)單元有幾個(gè)不同韻律的合成單元版本供選擇。一般所選語(yǔ)音基本單元越大，合成的接點(diǎn)越少，合成語(yǔ)音更容易保持清晰自然，但所需單元更多，儲(chǔ)存空間也更大。目前，許多中文系統(tǒng)采用單音節(jié)的字作為合成單元，主要原因是中文為一字一音的語(yǔ)言，但是因?yàn)槿狈B音的考慮，無(wú)法合成很自然的聲音。

四個(gè)模塊

第一，語(yǔ)言處理模塊。其主要功能是在語(yǔ)音資料庫(kù)的幫助下分析輸入的文章，適當(dāng)斷句、斷詞、構(gòu)詞甚至分析語(yǔ)法結(jié)構(gòu)及語(yǔ)意，找出文章中每個(gè)字的正確讀音，并且提供詞邊界、換氣邊界等相關(guān)信息給音韻預(yù)估模塊使用。首先，開(kāi)展智能前處理，將輸入文句中的符號(hào)或數(shù)字先轉(zhuǎn)成恰當(dāng)?shù)奈淖帧?如“有1/3的人無(wú)家可歸”中的“1/3”代表“三分之一”，而不是“一月三日”；“1234567”可能讀成電話(huà)號(hào)碼“一二三四五六七”或者金額“一百二十三萬(wàn)四千五百六十七”。如果把“1/3的人無(wú)家可歸”讀成“有一月三日的人無(wú)家可歸”或把“電話(huà)號(hào)碼為1234567”讀成“電話(huà)號(hào)碼為一百二十三萬(wàn)四千五百六十七”，一定會(huì)讓聽(tīng)者一頭霧水。另外，中文的詞與詞之間沒(méi)有分隔符，不論是分析語(yǔ)法結(jié)構(gòu)還是朗讀都要先找到詞。先將字串分成數(shù)個(gè)包含可能詞匯的大詞段，然后根據(jù)最長(zhǎng)匹配法則在每個(gè)詞段里選取最有可能的詞匯組合。中文詞的變化很多，如果把所有可能的詞都列入辭典中，不僅會(huì)導(dǎo)致辭典所占記憶容量過(guò)于龐大，還會(huì)減慢在辭典中搜尋詞群的速度，影響整個(gè)語(yǔ)音合成系統(tǒng)的效率。為了縮短查詢(xún)辭典的時(shí)間，屬于非規(guī)律性字串組合的詞及出現(xiàn)頻率較高的詞應(yīng)放進(jìn)辭典中，有規(guī)律的部分則在構(gòu)詞處理中組合成詞。中文的三種主要構(gòu)詞方式是附加、重疊及復(fù)合。決定詞群后，可由詞庫(kù)中的標(biāo)音找到正確讀音，不在詞庫(kù)中的可以用字轉(zhuǎn)音表處理，但仍可能有多音字的問(wèn)題。中文大約有10%的字有兩個(gè)以上發(fā)音，但大部分可由辭典及詞頻信息（選用最常用的發(fā)音）解決，錯(cuò)誤的概率在2%～3%。這個(gè)數(shù)字也許并不顯眼，但只要計(jì)算機(jī)讀錯(cuò)音，大部分人都會(huì)關(guān)注這個(gè)錯(cuò)誤。因此，一個(gè)語(yǔ)音合成系統(tǒng)要想被大眾廣泛接受，必須將錯(cuò)音比例降到最低。

第二，音韻預(yù)估模塊。語(yǔ)音合成系統(tǒng)必須發(fā)音自然，抑揚(yáng)頓挫。音韻預(yù)估模塊的目的是從讀音、語(yǔ)法結(jié)構(gòu)、語(yǔ)意等方面找出適當(dāng)?shù)姆椒A(yù)估合成語(yǔ)句的抑揚(yáng)頓挫，包括對(duì)聲調(diào)、音長(zhǎng)、音量及停頓等參數(shù)的預(yù)估。早期音韻處理多采用語(yǔ)言學(xué)家經(jīng)過(guò)長(zhǎng)期收集觀察總結(jié)出的規(guī)則，但這種方法費(fèi)時(shí)且難以規(guī)避許多因素的影響；近期偏向統(tǒng)計(jì)方法（即資料庫(kù)訓(xùn)練法）。一般采用音韻模型代表音韻受各因素影響的情形，先以大量語(yǔ)料訓(xùn)練此模型，使其具有韻律特性，然后將其應(yīng)用于語(yǔ)音合成系統(tǒng)預(yù)估音韻值。統(tǒng)計(jì)方法包括回歸模型、類(lèi)神經(jīng)網(wǎng)絡(luò)、期望最大化等，成效都不錯(cuò)。統(tǒng)計(jì)模型可以幫助我們定量決定每個(gè)因素影響音韻值的程度。對(duì)于聲調(diào)、音長(zhǎng)、音量及停頓而言，不同的因素有不同程度的影響?？赡苡绊懸繇嵉囊蛩匕ǎ海?）目前及相鄰的聲調(diào)、目前及相鄰的音素、子音、元音、音節(jié)等；（2）詞類(lèi)（如名詞詞組、動(dòng)詞詞組）；（3）詞組（換氣群及句中的位置等）。

第三，合成單元選取模塊。該模塊是從資料庫(kù)中選擇合適的合成單元連接產(chǎn)生需要的語(yǔ)句，在語(yǔ)音合成系統(tǒng)中經(jīng)常用來(lái)提高聲音質(zhì)量。單元選取技術(shù)主要是從語(yǔ)言學(xué)特性或音韻特性中找到一些選擇的標(biāo)準(zhǔn)，以選出最符合目標(biāo)值的最恰當(dāng)單元。如果單元語(yǔ)料庫(kù)夠大，含有足夠多不同上下文及韻律變化的組合，就不需要調(diào)整單元或只要小幅度調(diào)整，減小了調(diào)整單元導(dǎo)致的聲音質(zhì)量下降幅度。因此，這種方式合成的語(yǔ)音通常比單一單元合成的語(yǔ)音更清晰自然。合成單元選取的方法很多，例如樹(shù)狀結(jié)構(gòu)、隱馬爾可夫模型。有些研究通過(guò)定義成本的方式選取，?如使用結(jié)構(gòu)句法成本。

第四，合成器。人類(lèi)的發(fā)聲器官就像樂(lè)器一樣，可以發(fā)出很多種聲音，但也有許多先天的限制?？諝庥煞尾克统觯绻菨嵋?，聲帶會(huì)震動(dòng)，氣流在發(fā)聲腔道內(nèi)產(chǎn)生共振現(xiàn)象，然后從嘴部釋放出來(lái)，產(chǎn)生聲波，傳到我們的耳朵里。如果是清音，激發(fā)源為亂流的雜音形態(tài)。以不同的發(fā)音位置及方式可發(fā)出不同的聲音。但若以簡(jiǎn)單的線(xiàn)性發(fā)聲管模型模仿人類(lèi)的發(fā)音，仍有不足。因此，許多分析合成模型或合成器被提出。合成方法除了用一組不同口徑相連的發(fā)聲管模擬聲道外，還有貝爾實(shí)驗(yàn)室的荷爾·杜德利在1939年提出的聲碼器、共振峰合成器、時(shí)域上的基周同步疊加法及弦波模型等。以單脈沖/噪音激發(fā)的線(xiàn)性預(yù)估編碼為例，這種基于口腔模型的合成器可以隨意調(diào)整基周周期，但合成語(yǔ)音質(zhì)量受限于單脈沖激發(fā)的聲帶模型，語(yǔ)音較粗糙。質(zhì)量好一點(diǎn)的是以多脈沖激發(fā)或碼本激發(fā)的方式。之后受到歡迎的是波形合成器，可在時(shí)域直接調(diào)整語(yǔ)音。一般若是調(diào)整音韻的范圍不大，原始語(yǔ)料的音質(zhì)不會(huì)被破壞。因此，合成語(yǔ)音的質(zhì)量比線(xiàn)性預(yù)估編碼合成器好。基周同步疊加法是一套在時(shí)域直接修改語(yǔ)音的算法，比較簡(jiǎn)單又能得到不錯(cuò)的音質(zhì)，因此受到歡迎。

其他語(yǔ)音合成方向

以大量語(yǔ)料庫(kù)為基礎(chǔ)的傳統(tǒng)語(yǔ)音合成的優(yōu)點(diǎn)有資料庫(kù)所需內(nèi)存較小、系統(tǒng)可移植性較高，缺點(diǎn)是合成語(yǔ)音自然度較難提升，因?yàn)橐獙⒂邢薜恼Z(yǔ)音單元合成自然語(yǔ)音，語(yǔ)音單元必須經(jīng)過(guò)轉(zhuǎn)換調(diào)整，而經(jīng)過(guò)大幅調(diào)整的單元不易保持音質(zhì)，且選擇太少，難以達(dá)到自然的要求。于是，更龐大的音韻資料庫(kù)被用來(lái)訓(xùn)練音韻參數(shù)模型，更多語(yǔ)音合成單元得到應(yīng)用。計(jì)算機(jī)硬件的運(yùn)算速度越來(lái)越快，儲(chǔ)存容量越來(lái)越大，價(jià)格卻越來(lái)越低，設(shè)計(jì)一個(gè)可容納自然語(yǔ)言變化的龐大資料庫(kù)成為可能，以大量語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)音合成系統(tǒng)應(yīng)運(yùn)而生。由于語(yǔ)音單元包括許多變化，在單元相接時(shí)不用對(duì)合成單元做太大改動(dòng)就能產(chǎn)生接近自然原音的合成語(yǔ)音。

情緒語(yǔ)音合成。語(yǔ)音一向是最方便的人機(jī)接口。計(jì)算機(jī)語(yǔ)音在過(guò)去幾年里進(jìn)步不少，變得更加易懂、易聽(tīng)。但跟真人相比，聲音里還是缺少一些元素，那就是情緒。人類(lèi)情感的表達(dá)方式很多，透過(guò)語(yǔ)音的情緒表達(dá)是溝通的重要部分。如果能在計(jì)算機(jī)合成聲音中加入情緒，就能讓合成語(yǔ)音更真實(shí)，也能表達(dá)得更好。目前，已經(jīng)有相當(dāng)多的學(xué)者及機(jī)構(gòu)投入情緒語(yǔ)音合成的研究。

歌聲合成。唱歌和說(shuō)話(huà)都是人類(lèi)溝通及表達(dá)的自然方式。歌聲合成的應(yīng)用包括作曲、娛樂(lè)、教學(xué)等領(lǐng)域。歌聲合成雖與語(yǔ)音合成一樣是處理人類(lèi)發(fā)聲的問(wèn)題，卻有著和語(yǔ)音合成不一樣的困難。在歌聲合成中，作曲者已經(jīng)在譜中提供了韻律這方面的信息，但若只依照譜上的標(biāo)準(zhǔn)韻律值合成，無(wú)法產(chǎn)生自然的歌聲。我們?cè)诔皇赘钑r(shí)，會(huì)試著表達(dá)歌詞，而職業(yè)歌者賦予了歌聲許多藝術(shù)成分，使歌聲的變化比說(shuō)話(huà)更動(dòng)態(tài)化、更復(fù)雜，且變化的范圍更大。

結(jié) 語(yǔ)

雖然目前的合成語(yǔ)音和真人聲音之間還有距離，但讓計(jì)算機(jī)說(shuō)話(huà)不是實(shí)現(xiàn)不了的夢(mèng)想。其實(shí)在許多播報(bào)系統(tǒng)中，語(yǔ)音合成都已進(jìn)入實(shí)用階段。這項(xiàng)科技會(huì)用在家電、影片、電玩、動(dòng)畫(huà)、機(jī)器人等我們能想到或想不到的領(lǐng)域，發(fā)出栩栩如生的聲音。

（作者單位：浙江警官職業(yè)學(xué)院）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

話(huà)語(yǔ)自信構(gòu)建下的語(yǔ)音翻譯合成技術(shù)