韓文峰
(東北空管局,沈陽 110043)
在現(xiàn)有通信手段中,最直接、最常用的即為語音通信。相比于傳統(tǒng)語音通信系統(tǒng),VoIP具有更高的抗干擾性、更好的保密性,集成易于實(shí)現(xiàn),且成本低,能夠與復(fù)雜環(huán)境良好的適應(yīng),使通信便捷的、靈活的實(shí)現(xiàn),應(yīng)用前景十分廣闊。VoIP系統(tǒng)中,抖動(dòng)為重要參數(shù),可直接影響語音通信質(zhì)量,關(guān)系著接收端是否可以真實(shí)的再現(xiàn)傳輸?shù)恼Z音,因此,要想保證語音通信質(zhì)量,必須要采用適當(dāng)?shù)募夹g(shù)抗抖動(dòng)。
語音傳送利用IP網(wǎng)絡(luò)進(jìn)行時(shí),傳送質(zhì)量會(huì)受到多種因素的影響,抖動(dòng)即為影響因素中一個(gè)主要的。原本,語音為連續(xù)信號(hào),不過,傳送過程中,主機(jī)A會(huì)以分組的方式向主機(jī)B傳送語音數(shù)據(jù),由于采取了不同的分組傳輸路徑,而且每個(gè)路徑不具備相同的長短及數(shù)據(jù)流量,導(dǎo)致每組數(shù)據(jù)在不同的時(shí)間達(dá)到接收端,接收端回放語音時(shí),時(shí)斷時(shí)續(xù),此種現(xiàn)象就是抖動(dòng)。因抖動(dòng)現(xiàn)象的存在,使間斷問題出現(xiàn)在接收端解碼的語音信號(hào)中,造成語音失真,這不僅降低語音通信質(zhì)量,而且語音信息的準(zhǔn)確傳遞也受到極大影響。
VoIP是一種語音傳輸技術(shù),以網(wǎng)絡(luò)技術(shù)為建立基礎(chǔ),具備數(shù)字化及分組化的特征,其基本原理如下:壓縮編碼及打包模擬語音信號(hào)時(shí),利用數(shù)字化處理技術(shù),再通過IP網(wǎng)絡(luò),向接收端傳送語音包,數(shù)字處理再次進(jìn)行后,接收端以相應(yīng)終端播放語音,實(shí)現(xiàn)語音通信。
語音通信中,一段語音既包含話音段,也包含靜音段,二者交替組成,丟包現(xiàn)象若出現(xiàn)在語音段,傳輸語音質(zhì)量會(huì)被損傷,但如果發(fā)生在靜音段,基本不會(huì)影響語音質(zhì)量[1]。因此,為將接收的語音質(zhì)量提高,需將緩沖播放設(shè)置在語音段。本文為實(shí)現(xiàn)此種目的,在E-Model基礎(chǔ)上,提出了一種抗抖動(dòng)自適應(yīng)緩沖算法,旨在通過將E-Model聯(lián)系最終用戶的感知語音質(zhì)量,把緩沖控制機(jī)制找出,使用戶感知高質(zhì)量的語音。為讓復(fù)雜程度降低,算法以固定值來表示同一話音段內(nèi)的緩沖區(qū)大小,而話音段不同時(shí),自適應(yīng)調(diào)整緩沖區(qū)大小。
按照基于E-Model的抗抖動(dòng)自適應(yīng)緩沖算法流程,設(shè)定播放延時(shí)為PD、語言包延時(shí)的統(tǒng)計(jì)分布函數(shù)為FD(d)、丟包率L和語音質(zhì)量因子R隨PD變化的函數(shù)分別為L(PD)、R(PD)。具體算法流程如下[2]:第一,預(yù)測及更新延時(shí)分布FD(d),對于PD,算法會(huì)先進(jìn)行初始值的設(shè)定,新語音包接收后,算法會(huì)記錄該語音包RTP頭中的延時(shí)信息,延時(shí)數(shù)據(jù)統(tǒng)計(jì)總數(shù)為n(取值為1000)個(gè),隨著不斷地傳送來新包,會(huì)逐漸的丟棄最舊包的延時(shí)數(shù)據(jù),并增加進(jìn)新包的延時(shí)數(shù)據(jù),根據(jù)這些數(shù)據(jù),即可進(jìn)行延時(shí)分布FD(d)的預(yù)測;第二,預(yù)測L(PD),新語音包接收后,更新延時(shí)數(shù)據(jù)過程中,會(huì)不斷的改變FD(d)的預(yù)測參數(shù),算法檢測語音段及靜音段時(shí),采用的技術(shù)為VAD技術(shù),在一個(gè)靜音段內(nèi),出現(xiàn)下一個(gè)話音段前,丟包率利用FD(d)預(yù)測;第三,引入E-Model,E-Model引入后,利用93.2減去設(shè)備損傷因子、延時(shí)損傷因子后,差值即為語音質(zhì)量因子R,要想獲得最佳的語音質(zhì)量,需要獲得最大的R值,也就是說,設(shè)備損傷因子與延時(shí)損傷因子的和要達(dá)到最??;第四,找到最佳PD值,獲得最小的設(shè)備損傷因子及延時(shí)損傷因子和情況下,PD值即為最佳的播放延時(shí);第五,設(shè)置新話音段緩沖時(shí)間,最佳播放延時(shí)獲得后,就能夠進(jìn)行新話音段緩沖時(shí)間的設(shè)置。
本文設(shè)計(jì)實(shí)驗(yàn)時(shí),除提出算法外,還選擇了3種目前常用的自適應(yīng)緩沖算法,分別為指數(shù)平均緩沖算法、尖峰檢測緩沖算法、基于MOS的緩沖算法;實(shí)驗(yàn)網(wǎng)絡(luò)環(huán)境共3種,分別為局域網(wǎng)、ADSL/2M網(wǎng)絡(luò)、移動(dòng)GPRS接入網(wǎng)絡(luò)。實(shí)驗(yàn)過程中,跟蹤4種算法的RTP語音包延時(shí)信息,并將緩沖播放時(shí)間計(jì)算出來。實(shí)驗(yàn)結(jié)果顯示,在前兩種網(wǎng)絡(luò)環(huán)境中,這4種算法都具有比較高的MOS分,處于3.50~3.82、3.35~3.94之間,其中,MOS值最高的均為基于MOS的緩沖算法,本文提出算法MOS分略低,該結(jié)果出現(xiàn)的原因?yàn)榍皟煞N網(wǎng)絡(luò)環(huán)境都具有比較小的抖動(dòng),并不能完全的體現(xiàn)出提出算法的優(yōu)勢;在第三種網(wǎng)絡(luò)環(huán)境中,具有比較大的抖動(dòng)及延時(shí),此時(shí),提出算法的MOS分為3.05,而其他3種算法的MOS分分別為2.24、2.38、2.53,都比較低,提出算法仍然具有較高的MOS分的原因?yàn)槠淇刂普Z音質(zhì)量時(shí)采用E-Model,而E-Model可對語音傳輸質(zhì)量更加精確的評估,使計(jì)算出來的播放延時(shí)值更為適合,繼而有效的保證語音傳輸質(zhì)量。
IP語音通信過程中,抖動(dòng)現(xiàn)象的存在會(huì)使傳輸語音質(zhì)量顯著降低,影響語音信號(hào)傳遞的準(zhǔn)確性,對此,本文在E-Model基礎(chǔ)上提出了一種抗抖動(dòng)自適應(yīng)緩沖算法,實(shí)驗(yàn)結(jié)果顯示,該算法具有良好的抗抖動(dòng)性能,能夠明顯的提高語音傳輸質(zhì)量。