言語信息處理的進(jìn)展

2011-02-17 04:20蔡蓮紅

中文信息學(xué)報(bào) 2011年6期

蔡蓮紅，賈珈，鄭方

(1. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，普適計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室，清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌)，北京 100084；2. 清華大學(xué) 信息技術(shù)研究院語音和語言技術(shù)中心，北京 100084)

1 概述

語言是人類最基本的信息交流方式之一。言語(語音，Speech)指人類按給定自然語言模式發(fā)出的聲音；有時(shí)也指人類說話的聲音信號(hào)。漢語言語處理的研究始于20世紀(jì)50年代。目前漢語言語處理的研究工作基本跟上了國際的步伐，并有所創(chuàng)新。言語處理涉及到言語識(shí)別、言語合成、說話人識(shí)別、言語知覺計(jì)算等，其成果正在向?qū)嵱没较蜻~進(jìn)，已有一些商品問世。言語處理的研究也不斷深入，如集成多種技術(shù)的計(jì)算機(jī)輔助學(xué)習(xí)，可視言語合成，語音翻譯，語音檢索等。本文介紹了言語信息處理的進(jìn)展，特別提到漢語言語處理的現(xiàn)狀。

2 言語識(shí)別與語言學(xué)習(xí)

2.1 言語識(shí)別

言語識(shí)別是指利用計(jì)算機(jī)識(shí)別出語音信號(hào)所表達(dá)的內(nèi)容，理解其所蘊(yùn)含的含義。隱馬爾科夫模型在言語識(shí)別與建模中的應(yīng)用[1]是近年來言語識(shí)別領(lǐng)域最突出的成果，使識(shí)別系統(tǒng)性能得到了顯著的提高。目前，基于隱馬爾科夫模型的言語識(shí)別框架仍然是言語識(shí)別研究的一個(gè)主要方向。言語識(shí)別可將聲音轉(zhuǎn)換成文字，辨認(rèn)說話人身份，識(shí)別說話人的情感。隨著語音識(shí)別和互聯(lián)網(wǎng)技術(shù)的進(jìn)步，基于言語識(shí)別技術(shù)拓展了研究領(lǐng)域和應(yīng)用范圍，例如，多語種言語識(shí)別、語種識(shí)別、言語情感識(shí)別、聲音轉(zhuǎn)換、機(jī)器翻譯、口語水平自動(dòng)測評(píng)、語音搜索、哼唱搜索、聲樂演唱水平評(píng)價(jià)等。

言語識(shí)別性能的提高受到多種因素的影響[2]，主要體現(xiàn)在： (1)協(xié)同發(fā)音造成的影響；(2)不同說話人或說話方式不同造成的影響,如朗讀式發(fā)音和隨意發(fā)音會(huì)對識(shí)別模型的結(jié)果造成影響；(3)應(yīng)用環(huán)境、采集設(shè)備和傳輸信道等不同造成的影響。《中國語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范》(標(biāo)準(zhǔn)GB/T21023—2007)的發(fā)布有力的支撐了中文言語識(shí)別技術(shù)的發(fā)展。

言語識(shí)別系統(tǒng)面對異常復(fù)雜的語音輸入，其魯棒性是言語識(shí)別技術(shù)實(shí)用化的關(guān)鍵問題[3]。因此，消除說話人相關(guān)因素對語音識(shí)別造成的影響和環(huán)境相關(guān)因素對語音識(shí)別造成的影響，提高言語識(shí)別系統(tǒng)的魯棒性，才能解決以上因素引發(fā)識(shí)別率的退化問題。目前，言語識(shí)別的主要研究熱點(diǎn)是帶口音的語音識(shí)別和隨意發(fā)音的語音識(shí)別。嵌入式言語識(shí)別、語音搜索、情感識(shí)別、基于云模式的系統(tǒng)構(gòu)建等方面應(yīng)用前景潛力巨大。

2.2 語言學(xué)習(xí)與口語水平測評(píng)

語言學(xué)習(xí)(特別是第二語言)的學(xué)習(xí)需要花費(fèi)大量的時(shí)間和財(cái)力。據(jù)估計(jì)，中國約有2億人正在學(xué)習(xí)外語；全世界另有3 000萬人正在學(xué)習(xí)中文。據(jù)教育部估計(jì)，到2010 年全世界有1億人學(xué)習(xí)中文。如何發(fā)現(xiàn)語言學(xué)習(xí)中的問題，提高學(xué)習(xí)效率是人們關(guān)注的問題。

言語識(shí)別技術(shù)可輔助學(xué)習(xí)者進(jìn)行發(fā)聲訓(xùn)練，對學(xué)習(xí)者的錯(cuò)誤發(fā)音進(jìn)行檢測和診斷，不斷訓(xùn)練學(xué)習(xí)者的發(fā)音以達(dá)到增強(qiáng)其控制自身發(fā)音器官運(yùn)動(dòng)的能力；另一方面，利用可視言語合成技術(shù)，通過發(fā)音模型，從語音和視覺兩個(gè)模態(tài)對學(xué)習(xí)者的錯(cuò)誤發(fā)音與正確發(fā)音之間的區(qū)別進(jìn)行矯正性的認(rèn)知反饋，從而讓學(xué)習(xí)者從兩者的對比中不斷地增強(qiáng)其準(zhǔn)確區(qū)分不同發(fā)音的能力，并進(jìn)而鼓勵(lì)學(xué)習(xí)者在隨后的發(fā)聲過程中減少相應(yīng)的錯(cuò)誤發(fā)音。然而，現(xiàn)有的計(jì)算機(jī)輔助語言學(xué)習(xí)的研究工作，在針對發(fā)音錯(cuò)誤提供適當(dāng)而有效的診斷并反饋信息方面，還處于研究的起步階段[4]。

相關(guān)研究包括英語口語學(xué)習(xí)評(píng)測、計(jì)算機(jī)輔助普通話水平測試評(píng)分、在線語言學(xué)習(xí)的交互平臺(tái)、語言水平考試系統(tǒng)等。這些研究將言語處理技術(shù)與語言、網(wǎng)絡(luò)有效結(jié)合，促進(jìn)了言語處理技術(shù)的深化和拓展。研究中建立了具有矯正性認(rèn)知反饋功能的基于網(wǎng)絡(luò)的交互式在線語言學(xué)習(xí)平臺(tái)，針對學(xué)習(xí)者在練習(xí)發(fā)音時(shí)的認(rèn)知過程，為其提供了一個(gè)無所不在的計(jì)算機(jī)輔助的語言學(xué)習(xí)和訓(xùn)練環(huán)境[5]。

3 話者識(shí)別與身份驗(yàn)證

說話人識(shí)別屬于生物特征識(shí)別技術(shù)的一種，是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù)，自動(dòng)識(shí)別說話人身份的技術(shù)。與言語識(shí)別不同的是，說話人識(shí)別利用的是語音信號(hào)中的說話人信息，而不必關(guān)注語音中的字詞信息，它強(qiáng)調(diào)說話人的個(gè)人特性；而言語識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容，并不考慮說話人是誰，它強(qiáng)調(diào)共性。與其他生物特征的識(shí)別技術(shù)相比，聲紋在應(yīng)用方面有獲取方便、使用簡單、適于遠(yuǎn)程身份確認(rèn)、算法復(fù)雜度低等特殊的優(yōu)勢。

說話人識(shí)別根據(jù)應(yīng)用的范疇，可分為兩類： (1)說話人辨認(rèn)：用以判斷某段語音是若干人中的哪一個(gè)所說的，是“多選一”問題；(2)說話人確認(rèn)：用以確認(rèn)某段語音是否是指定的某個(gè)人所說的，是“一對一判別”問題。根據(jù)進(jìn)行識(shí)別的內(nèi)容，又可分為三類： (1)文本相關(guān)：要求用戶按照規(guī)定的內(nèi)容發(fā)音，每個(gè)人的聲紋模型逐個(gè)被精確地建立，而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音；(2)文本無關(guān)：不規(guī)定說話人的發(fā)音內(nèi)容，模型建立相對困難，但用戶使用方便，可應(yīng)用范圍較寬；(3)指定文本：為防止通過預(yù)先盜取錄制說話人語音等方式非法闖入系統(tǒng)，在進(jìn)行識(shí)別時(shí)，系統(tǒng)會(huì)隨機(jī)地指定說話人說出某段或某些段文本，只有說話人說出的語音與指定的文本一致且說話人識(shí)別結(jié)果為接受時(shí)才可以能被系統(tǒng)接受；或系統(tǒng)隨機(jī)提問說話人某個(gè)或某些預(yù)先設(shè)定的問題，只有說話人回答的內(nèi)容與預(yù)先設(shè)定的答案文本一致且說話人識(shí)別結(jié)果為接受時(shí)才可以被系統(tǒng)接受。此外，說話人識(shí)別還可分為語言無關(guān)、語言相關(guān)；按說話人不同可以分為：單說話人、多說話人等。

目前說話人識(shí)別的研究主要集中在各種識(shí)別參數(shù)的提取、選擇和實(shí)驗(yàn)上。此外，分析各種聲學(xué)參數(shù)的線性或非線性處理以及新的模式匹配方法，如動(dòng)態(tài)時(shí)間規(guī)整、主成分分析、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)和多特征組合等技術(shù)，也是目前語音信息處理熱門研究方向之一[6]。在相關(guān)研究成果的支持下，說話人識(shí)別技術(shù)已逐漸走入實(shí)際應(yīng)用。目前說話人識(shí)別技術(shù)的識(shí)別率，T-NETIx公司的SPeakEZ達(dá)到94%～95%；日本在此基礎(chǔ)上研制的同類產(chǎn)品據(jù)稱其識(shí)別率已達(dá)到99.8%；而國內(nèi)的聲紋識(shí)別技術(shù)，說話人辨認(rèn)的正確率不低于99%，說話人確認(rèn)的錯(cuò)誤識(shí)別率和錯(cuò)誤拒絕率均低于1%，并首次在電話銀行中用于身份認(rèn)證。我國政府和科研單位、商業(yè)機(jī)構(gòu)高度重視自主知識(shí)產(chǎn)權(quán)的說話人識(shí)別技術(shù)研發(fā)、標(biāo)準(zhǔn)制訂和應(yīng)用推廣工作。在信息產(chǎn)業(yè)部科技司批準(zhǔn)成立了中文語音交互技術(shù)標(biāo)準(zhǔn)工作組，并設(shè)立了“聲紋識(shí)別特定領(lǐng)域技術(shù)標(biāo)準(zhǔn)”專題組?！吨袊暭y識(shí)別系統(tǒng)通用技術(shù)規(guī)范》(標(biāo)準(zhǔn)SJ/T11380—2008)經(jīng)信息產(chǎn)業(yè)部批準(zhǔn)后正式成為國家標(biāo)準(zhǔn)，是我國說話人識(shí)別技術(shù)發(fā)展的重要標(biāo)志。

說話人識(shí)別目前的研究熱點(diǎn)主要集中在跨信道、環(huán)境噪音、多說話人、短語音、時(shí)變語音等因素存在的情況下，如何提高說話人識(shí)別的正確率。說話人識(shí)別在電話銀行、安全監(jiān)聽、個(gè)性化應(yīng)用等方面有著廣泛的應(yīng)用前景。

4 言語合成與語言表達(dá)

言語合成就是讓機(jī)器像人那樣的說話，實(shí)現(xiàn)自然的人機(jī)交互。言語合成的研究已有200多年的歷史，經(jīng)歷了機(jī)械式、模擬、數(shù)字的不同階段；從合成算法到系統(tǒng)集成，進(jìn)而實(shí)現(xiàn)了從實(shí)驗(yàn)室研究到應(yīng)用的進(jìn)步。TTS涉及到文本分析、合成算法、韻律控制等技術(shù)。研究的目標(biāo)是合成語音自然且具有表現(xiàn)力。

4.1 言語合成技術(shù)與系統(tǒng)

當(dāng)前典型的言語合成系統(tǒng)是TTS(Text To Speech),它涉及到文本分析、合成算法、韻律控制等技術(shù)。

(1) 文本分析。文本分析是TTS系統(tǒng)的前端。文本分析的主要任務(wù)是將以文字形式表示的文本轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別的讀音表示，并對文本進(jìn)行韻律結(jié)構(gòu)預(yù)測。文本分析涉及語言學(xué)、語音學(xué)等多個(gè)學(xué)科的知識(shí)。文本轉(zhuǎn)換的正確率直接影響了TTS系統(tǒng)輸出語音的正確性，也影響語音的自然度。文本分析主要包括文本正則化、語法分析、韻律結(jié)構(gòu)預(yù)測、字音轉(zhuǎn)換等部分。文本分析主要涉及自然語言處理的技術(shù)，目前多使用基于規(guī)則或機(jī)器學(xué)習(xí)方法。

(2) 合成算法。合成算法的作用是將文本分析生成的讀音表示生成語音波形。這是言語合成系統(tǒng)中的核心部分。在現(xiàn)在的言語合成系統(tǒng)中，主要的合成方法有拼接合成與參數(shù)合成兩種[7]。拼接合成利用一個(gè)大語料庫，從中選出合成語句中的每一個(gè)音節(jié)，再將它們拼接在一起生成合成語音。參數(shù)合成將語料庫中的語音分解為聲源與濾波器參數(shù)，利用隱馬爾可夫模型(HMM)對這些參數(shù)進(jìn)行建模；在合成時(shí)先進(jìn)行參數(shù)的生成，再由參數(shù)生成語音。

拼接合成直接使用從自然語音中得到的語音片斷進(jìn)行拼接，因而可以獲得較高的可懂度和清晰度。但主要問題是提高合成語音的自然度。這就需要對韻律模型、選音算法與語音修改及平滑算法、大規(guī)模語料庫建設(shè)進(jìn)行研究。從20世紀(jì)80年代開始，基于拼接合成的TTS逐漸成熟，并獲得應(yīng)用。

近些年，興起基于HMM的參數(shù)化合成。在訓(xùn)練過程中，從語音中提取出基頻和譜參數(shù)進(jìn)行HMM參數(shù)化建模，并通過語境參數(shù)對模型進(jìn)行聚類，得到一個(gè)語境相關(guān)的參數(shù)化模型。合成過程中，文本分析對輸入文本進(jìn)行語言學(xué)上處理得到每個(gè)訓(xùn)練單元的語境信息，之后從模型中選取合適的HMM序列，進(jìn)行狀態(tài)時(shí)長估計(jì)和聲學(xué)參數(shù)生成，得到基頻和譜參數(shù)序列，經(jīng)過參數(shù)化合成器生成合成語音。

在參數(shù)合成的方法中，可以直接對生成的語音參數(shù)進(jìn)行修改，從而可以更加方便地生成情感、個(gè)性化的語音。參數(shù)合成的這一優(yōu)勢，使其成為了目前言語合成研究的重要方向之一，而且參數(shù)合成占用資源少，適宜用于嵌入式平臺(tái)、手機(jī)系統(tǒng)中。

(3) 韻律控制。生成自成的韻律是提高合成語音自然度的關(guān)鍵。語言中的韻律信息還包含了如情感、態(tài)度個(gè)性化等信息。韻律研究是一個(gè)復(fù)雜的系統(tǒng)工程,涉及到語言學(xué)、語音學(xué)、心理學(xué)、語用學(xué)等學(xué)科的綜合知識(shí)。目前采用的韻律參數(shù)主要是音高、音長、音強(qiáng)等參數(shù)以及它們的分布規(guī)律,研究目標(biāo)是要生成自然語流的重音和語調(diào)。在基于隱馬爾可夫模型的言語合成系統(tǒng)中，韻律模型與聲學(xué)模型一起訓(xùn)練，使用參數(shù)化模型表示，可以較好地實(shí)現(xiàn)韻律參數(shù)的預(yù)測。

4.2 言語合成的展望

言語合成的發(fā)展方向及研究熱點(diǎn)主要在(同音色的)多語言合成、情感言語合成、可視言語合成等方面，從而實(shí)現(xiàn)更加和諧的人機(jī)語音交互。

多語言合成主要面對現(xiàn)在的國際化環(huán)境，主要面臨的挑戰(zhàn)是在沒有多語言的發(fā)音人的情況下，如何生成同一音色的不同語言的合成語音?，F(xiàn)在主要解決方式是跨語言的自適應(yīng)[8]。情感言語合成主要面臨解決的問題是情感的分類定義、情感韻律的生成等。由于很難得到情感狀態(tài)下的大語料庫，情感的言語生成多使用參數(shù)修改的方法[9]?？梢曆哉Z合成可以在生成語音的同時(shí)提供說話的圖像，這可以進(jìn)一步提高人機(jī)交互的自然度。可視言語合成主要研究內(nèi)容包括說話人唇形、臉部動(dòng)作與表情、頭部動(dòng)作生成等[10]。

5 言語知覺計(jì)算

聽覺是人類交流的“言語鏈”中的重要一環(huán)，在人類的生活中起著重大的作用。聲波通過介質(zhì)傳到內(nèi)耳，刺激耳蝸內(nèi)的纖毛細(xì)胞而產(chǎn)生神經(jīng)沖動(dòng)。神經(jīng)沖動(dòng)沿著聽神經(jīng)傳到大腦皮層的聽覺中樞，形成聽覺。聽覺的研究與心理語言學(xué)、認(rèn)知神經(jīng)科學(xué)、聽覺生理機(jī)制相關(guān)。言語加工的認(rèn)知機(jī)制、聽神經(jīng)計(jì)算模型、言語知覺計(jì)算模型、言語聲學(xué)特征分析、漢語知覺特性建模等是近年來言語知覺計(jì)算的研究熱點(diǎn)。這些研究成果也有助于抗噪語音識(shí)別、言語合成、音頻編碼等。

在言語知覺計(jì)算的相關(guān)應(yīng)用中，如何評(píng)價(jià)聽覺系統(tǒng)功能，即聽力評(píng)估，是重要的研究方向之一。純音測聽和言語測聽是聽力評(píng)估的重要手段。相對于采用單一頻率刺激聲的純音測聽，言語測聽(Speech Audiometry)采用行為方法測量聽覺系統(tǒng)對言語信號(hào)的察覺、分辨、識(shí)別和理解能力，更能反映日常生活交流中言語信息獲得的障礙，在臨床實(shí)踐中更有實(shí)際意義和診斷價(jià)值[11]，因此受到言語聲學(xué)、聽力學(xué)、臨床醫(yī)學(xué)的廣泛關(guān)注，在評(píng)價(jià)聽覺中樞、語言中樞的功能，選擇干預(yù)方案和評(píng)價(jià)康復(fù)效果等方面發(fā)揮著不可替代的作用。據(jù)世界衛(wèi)生組織(WHO)估計(jì)，1995年全球聽力殘疾人數(shù)為1.2億，到2000年超過3億。在我國，聽障礙的殘疾人約2 700萬，居殘疾人總數(shù)的1/3。因此，為聽力殘疾人提供有效的言語聽障評(píng)估，對于及時(shí)準(zhǔn)確的診斷聽力損失，評(píng)價(jià)殘疾程度、社會(huì)交往能力、治療或康復(fù)效果，進(jìn)一步提高患者的生活質(zhì)量具有十分重要的意義。

盡管言語測聽在國外早已成為臨床常規(guī)使用工具，但漢語言語測聽在我國尚未得到普及，將漢語言語測聽?wèi)?yīng)用于信息化系統(tǒng)更是處于研究的起步階段[12]。目前針對漢語言語測聽的相關(guān)研究，主要集中在測試材料的設(shè)計(jì)、錄制和等價(jià)性評(píng)估，以及言語識(shí)別率、言語識(shí)別閾的測試方法。與英語相比，漢語言語測聽在理論和技術(shù)上存在著兩個(gè)難以逾越的難題： 1)如何分析研究漢語言語聲學(xué)特征對聽覺感知的影響？目前通過對言語測試表的等價(jià)性、音位平衡研究較多，而較少關(guān)注言語聲學(xué)特征對言語測聽的影響；2)聲調(diào)是漢語區(qū)別于其它語言最顯著的特點(diǎn)，如何描述聲調(diào)特性對漢語辨義作用的影響？漢語是聲調(diào)語言，因此人耳對響度的感知不僅受到能量的影響，也會(huì)受到音節(jié)的調(diào)類和調(diào)值影響[13]。在這兩個(gè)技術(shù)難題的制約下，目前的漢語言語測聽主要采用階梯式降低言語聲級(jí)的方法進(jìn)行識(shí)別率測試和識(shí)別閾測試，將受試者聽力障礙的病理和臨床表現(xiàn)的差異進(jìn)行了模糊，而差異性對評(píng)估和診斷卻是至關(guān)重要。因此，在正確評(píng)價(jià)言語分辨能力和聽敏度的同時(shí)，能夠區(qū)分性的鑒別出受試者聽覺言語功能的具體缺陷或者殘障程度，提高漢語言語測聽的信度(可靠性)，改善言語測聽的效度(殘障程度的評(píng)價(jià)、聽覺言語功能缺陷的具體鑒別)，是漢語言語測聽相關(guān)研究未來的發(fā)展方向。同時(shí)，利用計(jì)算機(jī)輔助技術(shù)開展言語測聽信息化系統(tǒng)的研發(fā)[12]，將大大推動(dòng)言語測聽在臨床的實(shí)際使用，促進(jìn)言語測聽的推廣，并拓展在其他相關(guān)領(lǐng)域的應(yīng)用。

在推廣漢語言語測聽的同時(shí)，進(jìn)一步完善測試詞表的設(shè)計(jì)、噪聲下的言語測聽與評(píng)價(jià)、針對性言語測聽與聽力障礙評(píng)估等，將有望減輕醫(yī)務(wù)測試員的工作量，為患者提供更有效的聽力障礙評(píng)估，減輕患者的痛苦。另外基于言語信號(hào)處理技術(shù)，研究噪聲抑制算法、助聽器頻響補(bǔ)償方法、人工耳蝸編碼策略[14]、語音信號(hào)增強(qiáng)算法等，將有益于聽力障礙者的言語交流。

6 結(jié)語

作為中文信息處理領(lǐng)域活躍的研究方向，漢語言語處理在言語識(shí)別、言語合成、說話人識(shí)別、言語知覺計(jì)算等方面取得了一定的研究進(jìn)展。未來言語信息處理將繼續(xù)向集成化、實(shí)用化的方向邁進(jìn)，在計(jì)算機(jī)輔助語言學(xué)習(xí)、高表現(xiàn)力可視言語合成、基于互聯(lián)網(wǎng)的語音翻譯與檢索、漢語聽障評(píng)估等方面會(huì)有更豐碩的研究成果。

[1] Rabiner L, Juang B-H. Fundamentals of Speech Recognition[M]. Prentice Hall, 1993.

[2] Huang X D, Acero A, Hon H W. Spoken language processing: A guide to theory, algorithm and system development[M]. Prentice Hall. 2001.

[3] Liu L, Zheng F, Wu W. State-dependent phoneme-based model merging for dialectal Chinese speech recognition[J]. Speech Communication,2008, 50(7):605-615.

[4] Harrison A, Meng H, Lee P. Automated Feedback in Commercial Computer-Training Systems[R]. Dept. of SEEM, CUHK, 2009.

[5] Meng H, Lo W-K, Harrison A M, et al. Development of Automatic Speech Recognition and Synthesis Technologies to Support Chinese Learners of English: The CUHK Experience[C] //APSIPA 2010, Biopolis, Singapore: 2010.

[6] Wu W, Zheng F, Xu M, et al. A Channel Robust Speaker Verification Algorithm Using Cohort-based Speaker Model Synthesis[J].IEEE Transactions on Audio, Speech, and Language Processing,2007,15(6): 1893-1903.

[7] Zen H, Nose T, Yamagishi J, et al. The HMM-based Speech Synthesis System (HTS) Version 2.0[C]//Sixth ISCA Workshop on Speech Synthesis. Bonn, Germany: 2007: 294-299.

[8] Qian Y, Xu J, Soong F K. A frame mapping based HMM approach to cross-lingual voice transformation[C]//2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2011: 5120-5123.

[9] Chung-Hsien Wu, Chi-Chun Hsia, Chung-Han Lee, et al. Hierarchical Prosody Conversion Using Regression-Based Clustering for Emotional Speech Synthesis[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6): 1394-1405.

[10] Jia Jia, Shen Zhang, Fanbo Meng, et al. Emotional Audio-Visual Speech Synthesis Based on PAD[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(3): 570-582.

[11] Hall J W, Mueller H G. Speech Audiometry[G]//J.W. Hall, H.G. Mueller. Audiologists’ Desk Reference. Singular, 1996

[12] 黃高揚(yáng),賈珈, 蔡蓮紅, 等. 計(jì)算機(jī)輔助漢語言語測聽軟件的研究與實(shí)現(xiàn)[C]//第十八屆全國多媒體學(xué)術(shù)會(huì)議. 2009.

[13] Ciocca V, Francis A L, Aisha R, et al. The perception of Cantonese lexical tones by early-deafened cochlear implantees[J]. The Journal of the Acoustical Society of America, 2002, 111(5): 2250-2256.

[14] 吳璽宏,李量,遲惠生.漢語、英語聽感知差異及適合漢語的人工耳蝸編碼策略[J].中國聽力語言康復(fù)科學(xué)雜志,2007,5:17-20.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡