張馨予
西安文理學(xué)院,陜西 西安 710065
第三代移動(dòng)通信系統(tǒng)將支持語(yǔ)音、視頻和數(shù)據(jù)等多媒體業(yè)務(wù),但語(yǔ)音業(yè)務(wù)仍然是3G的最基本的業(yè)務(wù)。語(yǔ)音編碼技術(shù)經(jīng)過(guò)幾十年的發(fā)展,已經(jīng)有很多種可以實(shí)現(xiàn)在4.8kbit/s甚至更低的速率上提供接近長(zhǎng)途語(yǔ)言質(zhì)量高效的語(yǔ)音編碼方法,為保證互通性,3GPP于1999年公布了WCDMA的語(yǔ)音編碼標(biāo)準(zhǔn)AMR聲碼器標(biāo)準(zhǔn)。它由多速率語(yǔ)音編碼器,含有話音激活檢測(cè)器(VAD)與舒適背景噪聲(SID)產(chǎn)生系統(tǒng)的源控速率方案(SCR)和能減小傳輸誤碼與包丟失對(duì)合成語(yǔ)音影響的消除錯(cuò)誤機(jī)制(ECU)3部分組成。其中,多速率語(yǔ)音編碼器是一個(gè)編碼速率和背景噪聲低速率編碼模式的一個(gè)整體語(yǔ)音編解碼器。它允許每一幀信號(hào)(20ms)的編碼速率可以不同,是AMR語(yǔ)音編碼標(biāo)準(zhǔn)的核心;其余幾部分則用語(yǔ)改善聲碼器的性能和提高網(wǎng)絡(luò)的用戶容量,是可選的組件。
多速率語(yǔ)音編碼器是一種單個(gè)集成的語(yǔ)音編碼器,它有8種固定的信源速率模式,從4.75kbit/s到12.2kbit/s。此外,還有低速率的噪聲編碼模式,此編碼器能夠根據(jù)命令在每20ms語(yǔ)音幀中改變它的速率。經(jīng)測(cè)試表明:從信噪比的角度來(lái)看,對(duì)沒(méi)有背景噪聲的純語(yǔ)音序列,AMR聲碼器的8種速率表現(xiàn)出相對(duì)接近的語(yǔ)音質(zhì)量;而對(duì)有背景噪聲的語(yǔ)音,8種速率的語(yǔ)音質(zhì)量有明顯區(qū)別。根據(jù)此時(shí)的語(yǔ)音質(zhì)量可以把8種速率分成高、中、低3類(lèi)速率,高速率提供的語(yǔ)音質(zhì)量比低速率提供的語(yǔ)音質(zhì)量有很大提高;各類(lèi)中不同速率提供較接近的語(yǔ)音質(zhì)量。考慮到可能存在的應(yīng)用要求。也可以將中速率再細(xì)分為兩個(gè)子類(lèi),分別擁有7.95kps、7.40kps和 6.70kps、5.90kps。
在討論AMR聲碼器8種速率模式選擇的時(shí)候,沒(méi)有給出每種速率和某些參數(shù)值的一一對(duì)應(yīng)關(guān)系,也沒(méi)有給出相鄰速率切換的參數(shù),因?yàn)檫@樣做沒(méi)有太大的意義。首先,從語(yǔ)音質(zhì)量上,將8種速率分為3類(lèi),各類(lèi)內(nèi)提供較相近的語(yǔ)音質(zhì)量;其次,AMR聲碼器有8種速率并不是為了在信道變化的時(shí)候在相鄰速率之間,由高到低的切換。實(shí)際上,在信道迅速變化時(shí),這種遍歷式的切換也是不現(xiàn)實(shí)的。
相反,給出了用于不同類(lèi)別速率選擇的參數(shù)值,因?yàn)樵谡Z(yǔ)音含有噪聲的情況下(無(wú)線通信系統(tǒng)中的常見(jiàn)情況)各類(lèi)速率提供的語(yǔ)音質(zhì)量有較大的不同。在實(shí)際操作中,可以選擇不同類(lèi)之間的速率進(jìn)行切換,以適應(yīng)信道情況的變化。同時(shí)也可以根據(jù)不同的需要對(duì)每一類(lèi)速率進(jìn)行內(nèi)部適當(dāng)選擇。
如果接收機(jī)在背景噪聲狀態(tài)下不輸出任何信號(hào),則用戶可能認(rèn)為線路中斷,容易造成誤操作。研究表明當(dāng)用戶處在噪聲環(huán)境中時(shí),間斷的語(yǔ)音使得可懂度急劇下降,嚴(yán)重時(shí)甚至造成不能進(jìn)行正常通話。移動(dòng)環(huán)境的噪聲并不是長(zhǎng)期平穩(wěn)的,但是相對(duì)語(yǔ)音來(lái)說(shuō),背景噪聲變化比較緩慢,前后幀參數(shù)間的差距較小,編碼器沒(méi)有必要每一幀都進(jìn)行參數(shù)估計(jì)、編碼,所以標(biāo)準(zhǔn)中采用非連續(xù)發(fā)送(DTX)的方法,但是解碼器連續(xù)產(chǎn)生背景噪聲。下面介紹編碼器和解碼器各自的處理方法。
編碼器要完成的是背景噪聲參數(shù)的估計(jì)和編碼。由于人耳聽(tīng)覺(jué)只和信號(hào)的幅頻特性和信號(hào)幅度(能量)有關(guān),所以只要估計(jì)出背景噪聲的頻譜包絡(luò)和能量就可以再生聽(tīng)覺(jué)上很接近的噪聲。LSP可以很好地描述聽(tīng)覺(jué)信號(hào)的譜包絡(luò)特性,所以AMR選取LSP和能量?jī)山M參數(shù)來(lái)表示背景噪聲的特性,然后用背景噪聲特有的方法對(duì)LSP和能量進(jìn)行量化,編碼成SID幀,傳送給信道。
AMR聲碼器把SID分為兩類(lèi):SID-FIRST和SID-UPDATE,其中SID-FIRST在語(yǔ)音幀(包括延長(zhǎng)時(shí)間)結(jié)束后,立即發(fā)送,幀中不包括任何的編碼信息,只在幀模式域填充相應(yīng)的值,它的作用是告知解碼器SID的起始時(shí)刻,同時(shí)編碼器計(jì)算緩沖區(qū)中特征參數(shù)(也即語(yǔ)音延長(zhǎng)幀的特征參數(shù))的平均值作為背景噪聲段參數(shù)的初始值;SID-UPDATE則包含兩個(gè)參數(shù)(LSP和能量)信息量化,它每三幀發(fā)送一次。另外,如果語(yǔ)音幀發(fā)送的時(shí)間很短,則在該語(yǔ)音段結(jié)束后立即重復(fù)發(fā)送前一次SID-UPDATE幀,同時(shí)使用前一段的背景噪聲參數(shù)作為本段背景噪聲的參數(shù)估計(jì)的初始值,這是因?yàn)槿祟?lèi)的說(shuō)話和信令音以及音樂(lè)信號(hào)都是有一定持續(xù)時(shí)間的,持續(xù)時(shí)間很短語(yǔ)音是由背景噪聲干擾造成的,如果把該段時(shí)間的參數(shù)作為背景噪聲參數(shù)估計(jì)的初始值,解碼器合成的背景噪聲在頻譜和能量上與實(shí)際背景噪聲的相差很大,主觀聽(tīng)覺(jué)質(zhì)量差。
解碼器收到SID幀所需要進(jìn)行的操作就是根據(jù)背景再生參數(shù)構(gòu)造一個(gè)合成濾波器,用能量受控的白噪聲序列激勵(lì)濾波器得到連續(xù)的背景噪聲。由于SID-UPDATE幀中包含噪聲的所有參數(shù),解碼器只需進(jìn)行解碼和合成就可以了,處理比較簡(jiǎn)單。SID-FIRST沒(méi)有傳送背景噪聲的參數(shù),只是告知解碼器背景噪聲段已經(jīng)開(kāi)始,后續(xù)的幀將是不連續(xù)的SID-UPDATE幀,所以第一個(gè)SID幀的參數(shù)是由保存在緩存區(qū)中的語(yǔ)音延長(zhǎng)幀的參數(shù)計(jì)算得到的,把它作為背景噪聲參數(shù)估計(jì)的初始值。這就是編碼器對(duì)于語(yǔ)音突發(fā)結(jié)束時(shí)對(duì)語(yǔ)音進(jìn)行延長(zhǎng),繼續(xù)連續(xù)發(fā)送LSP參數(shù)的原因。對(duì)于SIDUPDATE幀,LSP和能量均通過(guò)解碼得到,但能量需根據(jù)語(yǔ)音變化的模型進(jìn)行調(diào)整以提高語(yǔ)音和背景噪聲相互切換時(shí)合成語(yǔ)音的主觀質(zhì)量。
AMR語(yǔ)音編碼器以CELP模型作為編碼模型,采用分析—合成方法量化激勵(lì)信號(hào)。編碼器對(duì)20ms的語(yǔ)音幀進(jìn)行編碼,對(duì)應(yīng)于160個(gè)語(yǔ)音樣本,采樣頻率為8kHz。在每160個(gè)樣本中,對(duì)語(yǔ)音信號(hào)進(jìn)行分析并抽取模型的參數(shù)(濾波器系數(shù)、自適應(yīng)和固定碼本索引和增益)。這些參數(shù)被編碼并傳送,在譯碼端,這些參數(shù)被譯碼并用來(lái)選擇合成濾波器的激勵(lì)信號(hào)。AMR編碼器功能包括9大部分:預(yù)處理;線性預(yù)測(cè)分析和量化;開(kāi)環(huán)基因分析;沖擊響應(yīng)計(jì)算;目標(biāo)信號(hào)計(jì)算;自適應(yīng)碼本;代數(shù)碼本;自適應(yīng)和固定碼本增益的量化;存儲(chǔ)器更新。
AMR的特點(diǎn)是LSP采用矢量量化。為保持時(shí)變性,AMR用內(nèi)插重建每子幀所需的LSP參數(shù)。對(duì)12.2kb/s模式,線性預(yù)測(cè)分析執(zhí)行兩次,而對(duì)其它模式,每幀執(zhí)行一次。在12.2kb/s模式時(shí),線性預(yù)測(cè)參數(shù)的兩個(gè)集被轉(zhuǎn)化為線譜對(duì)(LSP)并用38比特的分裂矩陣量化(SMQ)來(lái)聯(lián)合量化;對(duì)其它模式,線性預(yù)測(cè)參數(shù)的單個(gè)集被轉(zhuǎn)化成LSP并用分裂矢量量化(SVQ)來(lái)量化。語(yǔ)音幀被分為4個(gè)5ms的子幀,每個(gè)子幀包括40個(gè)樣本,每個(gè)子幀都傳送自適應(yīng)碼本和固定碼本參數(shù),子幀根據(jù)需要可以用量化和非量化的參數(shù)或它們的內(nèi)插值形式。每個(gè)子幀(5.15kb/s和4.75kb/s模式是每幀)根據(jù)感知加權(quán)語(yǔ)音對(duì)開(kāi)環(huán)基音延遲進(jìn)行估計(jì)。然后對(duì)每個(gè)子幀進(jìn)行以下的重復(fù)操作:
1)濾波器的初始狀態(tài)用LP殘留和激勵(lì)之間的誤差來(lái)修正的加權(quán)合成濾波器來(lái)計(jì)算目標(biāo)信號(hào);
2)計(jì)算加權(quán)合成濾波器的沖激響應(yīng);
3)用目標(biāo)信號(hào)和沖激響應(yīng)通過(guò)在開(kāi)環(huán)基因延時(shí)周?chē)M(jìn)行搜索來(lái)進(jìn)行閉環(huán)基音分析;
4)通過(guò)移去自適應(yīng)碼本的貢獻(xiàn)來(lái)修正目標(biāo)信號(hào),新的目標(biāo)信號(hào)用在固定碼本搜索;
5)自適應(yīng)和固定碼本的增益被量化成4—5bit或矢量量化成6—7bit;
6)最后,濾波器的存儲(chǔ)器狀態(tài)被更新以便發(fā)現(xiàn)下個(gè)子幀的目標(biāo)信號(hào)。
AMR解碼器的處理和一般的解碼器相同。解碼器包括以下部分:發(fā)送參數(shù)譯碼(LP參數(shù)、自適應(yīng)碼本矢量、自適應(yīng)碼本增益、固定碼本矢量、固定碼本增益),合成重建語(yǔ)音。重建的語(yǔ)音還要經(jīng)過(guò)后處理和信號(hào)放大。解碼器具有其獨(dú)特的重構(gòu)隨機(jī)激勵(lì)矢量的相位彌散處理。由于7.95,6.70,5.90,5.15,4.75kb/s模式中隨機(jī)激勵(lì)碼矢量中非零樣點(diǎn)非常少,如果隨機(jī)激勵(lì)碼矢量在整個(gè)激勵(lì)信號(hào)中所占分量比較大,則合成語(yǔ)音自然度差、機(jī)器聲比較明顯,為了消除這種情況的影響,聲碼器對(duì)隨機(jī)激勵(lì)矢量的脈沖進(jìn)行了相位彌散處理(抗稀疏處理)。其步驟為:
1)根據(jù)當(dāng)前分幀子適應(yīng)碼矢量的增益選取相位彌散處理程度;
2)根據(jù)隨機(jī)激勵(lì)碼矢量的增益修正相位彌散處理程度;
3)相位彌散處理:首先根據(jù)模式和相位彌散處理程度選取相應(yīng)的濾波器,然后隨機(jī)激勵(lì)碼矢量和濾波器進(jìn)行循環(huán)卷積。
通過(guò)對(duì)AMR研究,可以較清楚地看到以下幾個(gè)特點(diǎn):
1)AMR有八種固定的信源速率模式,從12.2kb/s到4.75kb/s。另外還有低速率的背景噪聲編碼模式:1.8kb/s。
2)AMR是以更智能的方式解決信源編碼和信道編碼的速率分配問(wèn)題。實(shí)際的語(yǔ)音速率取決于信道質(zhì)量,是信道質(zhì)量的函數(shù)。
3)AMR參數(shù)包括LP參數(shù)、自適應(yīng)碼本矢量、自適應(yīng)碼本增益、固定碼本矢量、固定碼本增益。AMR中不同模式下參數(shù)更新的速率相同,而不同模式下核心幀的比特?cái)?shù)不同,其它部分比特?cái)?shù)均相同。
4)AMR中專門(mén)設(shè)有靜音幀并在發(fā)送端和接收端都以一定的格式處理背景噪聲,使得對(duì)靜音的處理更加優(yōu)化,從而使合成語(yǔ)音在主觀聽(tīng)覺(jué)上的質(zhì)量更好。
5)AMR中利用噪聲的短時(shí)平穩(wěn)性采用非連續(xù)傳輸技術(shù),噪聲參數(shù)每三幀傳輸一次,降低了系統(tǒng)的自干擾,同時(shí)增加了系統(tǒng)容量。
[1]祁玉生,等.現(xiàn)代移動(dòng)通信系統(tǒng)[M].北京:人民郵電出版社,1999.
[2]楊留青,等.數(shù)字移動(dòng)通信系統(tǒng)[M].北京:人民郵電出版社,1995.
[3]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[4]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000.
[5]竺南直,等.碼分多址(CDMA)移動(dòng)通信系統(tǒng)[M].北京:電子工業(yè)出版社,1999.
[6]邱玲,等.第三代移動(dòng)通信技術(shù)[M].北京:人民郵電出版社,2001.
[7]鄔國(guó)揚(yáng).數(shù)字蜂窩網(wǎng)[M].西安:西安電子科學(xué)技術(shù)大學(xué)出版社,2000.
[8]易克初,等.語(yǔ)音信號(hào)處理[M].北京:國(guó)防工業(yè)出版社,2000.