通信技術(shù)的未來

2014-04-06 02:13:22

數(shù)字通信世界 2014年2期

大多數(shù)語音通話采用語音編解碼器而非音頻編解碼器，而語音編解碼器僅能合理再現(xiàn)人的聲音及傳輸有限的音頻帶寬?，F(xiàn)在，全高清語音（Full-HD Voice）技術(shù)的出現(xiàn)能夠顯著提升語音通話體驗，并將通話質(zhì)量提升至大多數(shù)數(shù)字媒體的水平。該項技術(shù)將為我們帶來更加讓人驚嘆和優(yōu)質(zhì)的通信體驗。

AAC-ELD系列產(chǎn)品

全高清語音技術(shù)應(yīng)用的是增強(qiáng)型低延遲AAC（AAC-ELD）系列編解碼器，其中包括AAC-LD，AAC-ELD，AAC-ELDv2，經(jīng)過優(yōu)化的低延遲算法對自然的實時通信至關(guān)重要。與普通語音編解碼器不同的是，AAC-ELD系列編解碼器將應(yīng)用領(lǐng)域從單純的語音拓展至各種音源素材（包括語音、歌曲、音樂及環(huán)境聲）。鑒于其強(qiáng)大的技術(shù)優(yōu)勢，AAC-ELD系列產(chǎn)品迅速應(yīng)用于各類通信領(lǐng)域（包括OTT服務(wù)、視頻電話、視頻會議、視頻和遠(yuǎn)程監(jiān)控以及廣播服務(wù)）。蘋果公司大獲成功的FaceTime就是基于AACELD實現(xiàn)的視頻電話應(yīng)用的成功案例。此外，iOS，Android，Mac OS X系統(tǒng)中也自帶了該編解碼器。

AAC-ELD系列的三種產(chǎn)品可視為各自的超集，它們使用的是相同的核心編碼，且各自均增設(shè)了新型編碼工具。AAC-ELD編解碼器系列產(chǎn)品可實現(xiàn)完全向后兼容，能夠處理單聲道、立體聲道以及多聲道信號，并將延遲控制在15毫秒內(nèi)，具有范圍較廣的比特率（低至24kb/s）和采樣速率。

AAC-ELD

AAC-ELD可滿足全高清語音應(yīng)用的不同需求，得益于靈活性，AAC-ELD可在以下三種不同操作模式下使用，所有模式均與標(biāo)準(zhǔn)兼容解碼器完全兼容。

一是AAC-ELD內(nèi)核。該模式適用于所有高比特率應(yīng)用，例如比特率達(dá)到96kb/s甚至更高的立體聲信號。

二是具有SBR的AAC-ELD。該模式是最為靈活的AAC-ELD模式，由于其比特率和采樣速率范圍較廣（每聲道的比特率約為32～64kb/s），因此頗受諸如蘋果公司FaceTime等視頻電話類應(yīng)用的青睞。由于在整個比特率范圍內(nèi)所出現(xiàn)的延遲均一致，即使動態(tài)地切換比特率也不會導(dǎo)致延遲差異。在MPEG格式的文件中，這一模式通常被稱為“下采樣模式”，它將頻譜帶寬復(fù)制（LD-SBR）技術(shù)的優(yōu)化延遲版本應(yīng)用于AAC-ELD內(nèi)核模式中。LDSBR可在降低比特率的同時保持極佳的音頻質(zhì)量。此外，較低的音頻頻譜使用了AAC-ELD內(nèi)核，而較高的頻譜則采用了LD-SBR工具編碼。LD-SBR是一種參數(shù)化方法，可利用自然音頻信號的諧波結(jié)構(gòu)，它能夠基于高低頻譜之間的關(guān)系對信號的整個音頻頻譜進(jìn)行引導(dǎo)性再現(xiàn)。

三是雙速率SBRAAC-ELD。雙速率SBR模式適用于更低數(shù)據(jù)速率的應(yīng)用需求（如現(xiàn)場直播），該模式可提供效率最高的比特率，相較于其他兩種模式，它可在增加一定延遲的情況下使每信道的比特率降低至24kb/s，它仍然使用LD-SBR工具編碼。然而，AAC-ELD內(nèi)核編碼實際上是按照采樣速率的一半進(jìn)行的，因此，該模式能在極低的比特率下產(chǎn)生最佳的音頻質(zhì)量。

所有標(biāo)準(zhǔn)兼容的AAC-ELD解碼器在上述三種模式下均可運行，因此編碼器工程師可自由選擇最適合目標(biāo)應(yīng)用場景的模式。AAC-ELD的音頻質(zhì)量已在多項獨立測試中得到證實。

AAC-ELD v2

為了在接近單聲道比特率的情況下獲得立體聲效，AAC-ELD v2增加了參數(shù)化立體聲擴(kuò)展功能，該參數(shù)化擴(kuò)展是基于可進(jìn)一步降低比特率的雙信道低延遲MPEG Surround技術(shù)（LD-MPS）而進(jìn)行的。LD-MPS編碼器并非旨在傳輸兩個信道中的信號，而是提取空間參數(shù)重構(gòu)解碼器側(cè)的立體聲信號，并使用AAC-ELD對其他的單聲道混音進(jìn)行編碼。LD-MPS數(shù)據(jù)和SBR數(shù)據(jù)均通過AAC-ELD比特流傳輸。AAC-ELD解碼器重構(gòu)單聲道信號，而LDMPS解碼器能夠重塑立體聲像。通常情況下，頻率為48kHz時，立體聲參數(shù)所需的比特率為3kb/s。這使得AAC-ELD v2能在遠(yuǎn)低于離散式立體聲編碼的比特率速率下對立體聲信號進(jìn)行編碼。

決延遲問題

在面對面交談中，延遲回復(fù)可歸結(jié)為下述原因：猶豫不決、需要時間思考或不想給出答案。然而，若另一方回應(yīng)很快，但由于技術(shù)缺陷而產(chǎn)生延遲，則會產(chǎn)生一些誤會，交談也會變得尷尬和令人沮喪。因此，應(yīng)將此類端到端延遲控制在150～200毫秒以內(nèi)。

VoIP通話的端到端延遲主要是由于一些處理步驟和組件（如回音消除、噪聲抑制、自動增益控制、路由器、抖動緩沖及語音/音頻編碼）導(dǎo)致的。因此，能夠?qū)⒖傮w延遲控制在較低水平變得尤為重要，這也要求每個元件都必須合理地利用資源。由于AAC-ELD可根據(jù)比特率和采樣速率將延遲控制在15～32毫秒范圍內(nèi)，因此能夠成為一個理想的解決方案。

高清語音技術(shù)的應(yīng)用

AAC-ELD系列產(chǎn)品的技術(shù)優(yōu)勢使全高清語音技術(shù)成為塑造優(yōu)質(zhì)音頻的理想之選?，F(xiàn)有通信系統(tǒng)中的語音應(yīng)用包括OTT服務(wù)、視頻和遠(yuǎn)程監(jiān)控以及廣播電視內(nèi)容服務(wù)。

全高清語音技術(shù)在改變通信格局方面已取得很大進(jìn)展，而網(wǎng)絡(luò)技術(shù)也在不斷的變革（如向LTE和固網(wǎng)寬帶網(wǎng)絡(luò)的演進(jìn)趨勢）。全高清語音技術(shù)與許多新興趨勢都密不可分，作為一項重要的技術(shù)儲備，全高清語音技術(shù)可以創(chuàng)造出其他技術(shù)無可比擬的業(yè)務(wù)發(fā)展機(jī)遇。

LTE網(wǎng)絡(luò)需要部署全I(xiàn)P語音服務(wù)或VoLTE，并以此開創(chuàng)了將所有語音服務(wù)移至IP網(wǎng)絡(luò)的局面。全高清語音技術(shù)的發(fā)展，將促使服務(wù)供應(yīng)商擺脫包括音頻帶寬和語音編解碼器在內(nèi)的使用限制。