淺談IP語音通信中的抗抖動(dòng)技術(shù)

2018-03-20 14:00韓文峰

數(shù)字通信世界 2018年7期

韓文峰

（東北空管局，沈陽 110043）

在現(xiàn)有通信手段中，最直接、最常用的即為語音通信。相比于傳統(tǒng)語音通信系統(tǒng)，VoIP具有更高的抗干擾性、更好的保密性，集成易于實(shí)現(xiàn)，且成本低，能夠與復(fù)雜環(huán)境良好的適應(yīng)，使通信便捷的、靈活的實(shí)現(xiàn)，應(yīng)用前景十分廣闊。VoIP系統(tǒng)中，抖動(dòng)為重要參數(shù)，可直接影響語音通信質(zhì)量，關(guān)系著接收端是否可以真實(shí)的再現(xiàn)傳輸?shù)恼Z音，因此，要想保證語音通信質(zhì)量，必須要采用適當(dāng)?shù)募夹g(shù)抗抖動(dòng)。

1 抖動(dòng)對IP語音通信的影響

語音傳送利用IP網(wǎng)絡(luò)進(jìn)行時(shí)，傳送質(zhì)量會(huì)受到多種因素的影響，抖動(dòng)即為影響因素中一個(gè)主要的。原本，語音為連續(xù)信號(hào)，不過，傳送過程中，主機(jī)A會(huì)以分組的方式向主機(jī)B傳送語音數(shù)據(jù)，由于采取了不同的分組傳輸路徑，而且每個(gè)路徑不具備相同的長短及數(shù)據(jù)流量，導(dǎo)致每組數(shù)據(jù)在不同的時(shí)間達(dá)到接收端，接收端回放語音時(shí)，時(shí)斷時(shí)續(xù)，此種現(xiàn)象就是抖動(dòng)。因抖動(dòng)現(xiàn)象的存在，使間斷問題出現(xiàn)在接收端解碼的語音信號(hào)中，造成語音失真，這不僅降低語音通信質(zhì)量，而且語音信息的準(zhǔn)確傳遞也受到極大影響。

2 IP語言通信中的抗抖動(dòng)技術(shù)

2.1 自適應(yīng)緩沖算法的設(shè)計(jì)

VoIP是一種語音傳輸技術(shù)，以網(wǎng)絡(luò)技術(shù)為建立基礎(chǔ)，具備數(shù)字化及分組化的特征，其基本原理如下：壓縮編碼及打包模擬語音信號(hào)時(shí)，利用數(shù)字化處理技術(shù)，再通過IP網(wǎng)絡(luò)，向接收端傳送語音包，數(shù)字處理再次進(jìn)行后，接收端以相應(yīng)終端播放語音，實(shí)現(xiàn)語音通信。

語音通信中，一段語音既包含話音段，也包含靜音段，二者交替組成，丟包現(xiàn)象若出現(xiàn)在語音段，傳輸語音質(zhì)量會(huì)被損傷，但如果發(fā)生在靜音段，基本不會(huì)影響語音質(zhì)量[1]。因此，為將接收的語音質(zhì)量提高，需將緩沖播放設(shè)置在語音段。本文為實(shí)現(xiàn)此種目的，在E-Model基礎(chǔ)上，提出了一種抗抖動(dòng)自適應(yīng)緩沖算法，旨在通過將E-Model聯(lián)系最終用戶的感知語音質(zhì)量，把緩沖控制機(jī)制找出，使用戶感知高質(zhì)量的語音。為讓復(fù)雜程度降低，算法以固定值來表示同一話音段內(nèi)的緩沖區(qū)大小，而話音段不同時(shí)，自適應(yīng)調(diào)整緩沖區(qū)大小。

按照基于E-Model的抗抖動(dòng)自適應(yīng)緩沖算法流程，設(shè)定播放延時(shí)為PD、語言包延時(shí)的統(tǒng)計(jì)分布函數(shù)為FD（d）、丟包率L和語音質(zhì)量因子R隨PD變化的函數(shù)分別為L（PD）、R（PD）。具體算法流程如下[2]：第一，預(yù)測及更新延時(shí)分布FD（d），對于PD，算法會(huì)先進(jìn)行初始值的設(shè)定，新語音包接收后，算法會(huì)記錄該語音包RTP頭中的延時(shí)信息，延時(shí)數(shù)據(jù)統(tǒng)計(jì)總數(shù)為n（取值為1000）個(gè)，隨著不斷地傳送來新包，會(huì)逐漸的丟棄最舊包的延時(shí)數(shù)據(jù)，并增加進(jìn)新包的延時(shí)數(shù)據(jù)，根據(jù)這些數(shù)據(jù)，即可進(jìn)行延時(shí)分布FD（d）的預(yù)測；第二，預(yù)測L（PD），新語音包接收后，更新延時(shí)數(shù)據(jù)過程中，會(huì)不斷的改變FD（d）的預(yù)測參數(shù)，算法檢測語音段及靜音段時(shí)，采用的技術(shù)為VAD技術(shù)，在一個(gè)靜音段內(nèi)，出現(xiàn)下一個(gè)話音段前，丟包率利用FD（d）預(yù)測；第三，引入E-Model，E-Model引入后，利用93.2減去設(shè)備損傷因子、延時(shí)損傷因子后，差值即為語音質(zhì)量因子R，要想獲得最佳的語音質(zhì)量，需要獲得最大的R值，也就是說，設(shè)備損傷因子與延時(shí)損傷因子的和要達(dá)到最??；第四，找到最佳PD值，獲得最小的設(shè)備損傷因子及延時(shí)損傷因子和情況下，PD值即為最佳的播放延時(shí)；第五，設(shè)置新話音段緩沖時(shí)間，最佳播放延時(shí)獲得后，就能夠進(jìn)行新話音段緩沖時(shí)間的設(shè)置。

2.2 實(shí)驗(yàn)分析

本文設(shè)計(jì)實(shí)驗(yàn)時(shí)，除提出算法外，還選擇了3種目前常用的自適應(yīng)緩沖算法，分別為指數(shù)平均緩沖算法、尖峰檢測緩沖算法、基于MOS的緩沖算法；實(shí)驗(yàn)網(wǎng)絡(luò)環(huán)境共3種，分別為局域網(wǎng)、ADSL/2M網(wǎng)絡(luò)、移動(dòng)GPRS接入網(wǎng)絡(luò)。實(shí)驗(yàn)過程中，跟蹤4種算法的RTP語音包延時(shí)信息，并將緩沖播放時(shí)間計(jì)算出來。實(shí)驗(yàn)結(jié)果顯示，在前兩種網(wǎng)絡(luò)環(huán)境中，這4種算法都具有比較高的MOS分，處于3.50～3.82、3.35～3.94之間，其中，MOS值最高的均為基于MOS的緩沖算法，本文提出算法MOS分略低，該結(jié)果出現(xiàn)的原因?yàn)榍皟煞N網(wǎng)絡(luò)環(huán)境都具有比較小的抖動(dòng)，并不能完全的體現(xiàn)出提出算法的優(yōu)勢；在第三種網(wǎng)絡(luò)環(huán)境中，具有比較大的抖動(dòng)及延時(shí)，此時(shí)，提出算法的MOS分為3.05，而其他3種算法的MOS分分別為2.24、2.38、2.53，都比較低，提出算法仍然具有較高的MOS分的原因?yàn)槠淇刂普Z音質(zhì)量時(shí)采用E-Model，而E-Model可對語音傳輸質(zhì)量更加精確的評估，使計(jì)算出來的播放延時(shí)值更為適合，繼而有效的保證語音傳輸質(zhì)量。

3 結(jié)束語