大多數(shù)語音通話采用語音編解碼器而非音頻編解碼器,而語音編解碼器僅能合理再現(xiàn)人的聲音及傳輸有限的音頻帶寬?,F(xiàn)在,全高清語音(Full-HD Voice)技術(shù)的出現(xiàn)能夠顯著提升語音通話體驗,并將通話質(zhì)量提升至大多數(shù)數(shù)字媒體的水平。該項技術(shù)將為我們帶來更加讓人驚嘆和優(yōu)質(zhì)的通信體驗。
全高清語音技術(shù)應(yīng)用的是增強(qiáng)型低延遲AAC(AAC-ELD)系列編解碼器,其中包括AAC-LD,AAC-ELD,AAC-ELDv2,經(jīng)過優(yōu)化的低延遲算法對自然的實時通信至關(guān)重要。與普通語音編解碼器不同的是,AAC-ELD系列編解碼器將應(yīng)用領(lǐng)域從單純的語音拓展至各種音源素材(包括語音、歌曲、音樂及環(huán)境聲)。鑒于其強(qiáng)大的技術(shù)優(yōu)勢,AAC-ELD系列產(chǎn)品迅速應(yīng)用于各類通信領(lǐng)域(包括OTT服務(wù)、視頻電話、視頻會議、視頻和遠(yuǎn)程監(jiān)控以及廣播服務(wù))。蘋果公司大獲成功的FaceTime就是基于AACELD實現(xiàn)的視頻電話應(yīng)用的成功案例。此外,iOS,Android,Mac OS X系統(tǒng)中也自帶了該編解碼器。
AAC-ELD系列的三種產(chǎn)品可視為各自的超集,它們使用的是相同的核心編碼,且各自均增設(shè)了新型編碼工具。AAC-ELD編解碼器系列產(chǎn)品可實現(xiàn)完全向后兼容,能夠處理單聲道、立體聲道以及多聲道信號,并將延遲控制在15毫秒內(nèi),具有范圍較廣的比特率(低至24kb/s)和采樣速率。
AAC-ELD可滿足全高清語音應(yīng)用的不同需求,得益于靈活性,AAC-ELD可在以下三種不同操作模式下使用,所有模式均與標(biāo)準(zhǔn)兼容解碼器完全兼容。
一是AAC-ELD內(nèi)核。該模式適用于所有高比特率應(yīng)用,例如比特率達(dá)到96kb/s甚至更高的立體聲信號。
二是具有SBR的AAC-ELD。該模式是最為靈活的AAC-ELD模式,由于其比特率和采樣速率范圍較廣(每聲道的比特率約為32~64kb/s),因此頗受諸如蘋果公司FaceTime等視頻電話類應(yīng)用的青睞。由于在整個比特率范圍內(nèi)所出現(xiàn)的延遲均一致,即使動態(tài)地切換比特率也不會導(dǎo)致延遲差異。在MPEG格式的文件中,這一模式通常被稱為“下采樣模式”,它將頻譜帶寬復(fù)制(LD-SBR)技術(shù)的優(yōu)化延遲版本應(yīng)用于AAC-ELD內(nèi)核模式中。LDSBR可在降低比特率的同時保持極佳的音頻質(zhì)量。此外,較低的音頻頻譜使用了AAC-ELD內(nèi)核,而較高的頻譜則采用了LD-SBR工具編碼。LD-SBR是一種參數(shù)化方法,可利用自然音頻信號的諧波結(jié)構(gòu),它能夠基于高低頻譜之間的關(guān)系對信號的整個音頻頻譜進(jìn)行引導(dǎo)性再現(xiàn)。
三是雙速率SBRAAC-ELD。雙速率SBR模式適用于更低數(shù)據(jù)速率的應(yīng)用需求(如現(xiàn)場直播),該模式可提供效率最高的比特率,相較于其他兩種模式,它可在增加一定延遲的情況下使每信道的比特率降低至24kb/s,它仍然使用LD-SBR工具編碼。然而,AAC-ELD內(nèi)核編碼實際上是按照采樣速率的一半進(jìn)行的,因此,該模式能在極低的比特率下產(chǎn)生最佳的音頻質(zhì)量。
所有標(biāo)準(zhǔn)兼容的AAC-ELD解碼器在上述三種模式下均可運行,因此編碼器工程師可自由選擇最適合目標(biāo)應(yīng)用場景的模式。AAC-ELD的音頻質(zhì)量已在多項獨立測試中得到證實。
為了在接近單聲道比特率的情況下獲得立體聲效,AAC-ELD v2增加了參數(shù)化立體聲擴(kuò)展功能,該參數(shù)化擴(kuò)展是基于可進(jìn)一步降低比特率的雙信道低延遲MPEG Surround技術(shù)(LD-MPS)而進(jìn)行的。LD-MPS編碼器并非旨在傳輸兩個信道中的信號,而是提取空間參數(shù)重構(gòu)解碼器側(cè)的立體聲信號,并使用AAC-ELD對其他的單聲道混音進(jìn)行編碼。LD-MPS數(shù)據(jù)和SBR數(shù)據(jù)均通過AAC-ELD比特流傳輸。AAC-ELD解碼器重構(gòu)單聲道信號,而LDMPS解碼器能夠重塑立體聲像。通常情況下,頻率為48kHz時,立體聲參數(shù)所需的比特率為3kb/s。這使得AAC-ELD v2能在遠(yuǎn)低于離散式立體聲編碼的比特率速率下對立體聲信號進(jìn)行編碼。
在面對面交談中,延遲回復(fù)可歸結(jié)為下述原因:猶豫不決、需要時間思考或不想給出答案。然而,若另一方回應(yīng)很快,但由于技術(shù)缺陷而產(chǎn)生延遲,則會產(chǎn)生一些誤會,交談也會變得尷尬和令人沮喪。因此,應(yīng)將此類端到端延遲控制在150~200毫秒以內(nèi)。
VoIP通話的端到端延遲主要是由于一些處理步驟和組件(如回音消除、噪聲抑制、自動增益控制、路由器、抖動緩沖及語音/音頻編碼)導(dǎo)致的。因此,能夠?qū)⒖傮w延遲控制在較低水平變得尤為重要,這也要求每個元件都必須合理地利用資源。由于AAC-ELD可根據(jù)比特率和采樣速率將延遲控制在15~32毫秒范圍內(nèi),因此能夠成為一個理想的解決方案。
AAC-ELD系列產(chǎn)品的技術(shù)優(yōu)勢使全高清語音技術(shù)成為塑造優(yōu)質(zhì)音頻的理想之選?,F(xiàn)有通信系統(tǒng)中的語音應(yīng)用包括OTT服務(wù)、視頻和遠(yuǎn)程監(jiān)控以及廣播電視內(nèi)容服務(wù)。
全高清語音技術(shù)在改變通信格局方面已取得很大進(jìn)展,而網(wǎng)絡(luò)技術(shù)也在不斷的變革(如向LTE和固網(wǎng)寬帶網(wǎng)絡(luò)的演進(jìn)趨勢)。全高清語音技術(shù)與許多新興趨勢都密不可分,作為一項重要的技術(shù)儲備,全高清語音技術(shù)可以創(chuàng)造出其他技術(shù)無可比擬的業(yè)務(wù)發(fā)展機(jī)遇。
LTE網(wǎng)絡(luò)需要部署全I(xiàn)P語音服務(wù)或VoLTE,并以此開創(chuàng)了將所有語音服務(wù)移至IP網(wǎng)絡(luò)的局面。全高清語音技術(shù)的發(fā)展,將促使服務(wù)供應(yīng)商擺脫包括音頻帶寬和語音編解碼器在內(nèi)的使用限制。
固網(wǎng)寬帶和移動領(lǐng)域的LTE網(wǎng)絡(luò)類似,固網(wǎng)領(lǐng)域也正在發(fā)生著翻天覆地的變化。目前趨勢就是將語音服務(wù)移至全I(xiàn)P網(wǎng)絡(luò)(如光纖網(wǎng)絡(luò)、xDSL或DOCSIS網(wǎng)絡(luò))。全高清語音技術(shù)為新型綜合應(yīng)用集成至寬帶連接設(shè)備(如電腦、電視機(jī)、機(jī)頂盒、平板電腦和手機(jī))奠定了基礎(chǔ)?!?/p>