劉華平,方 勇,陶 浩
(上海大學(xué) 上海先進通信與數(shù)據(jù)科學(xué)研究院 特種光纖與光接入網(wǎng)重點實驗室特種光纖與先進通信國際合作聯(lián)合實驗室,上海 200444)
隨著互聯(lián)網(wǎng)技術(shù)發(fā)展和滿足人群的細(xì)分領(lǐng)域的需求,音頻直播形式也越來越多樣,從傳統(tǒng)的電臺廣播模擬語音直播到以移動互聯(lián)網(wǎng)為基礎(chǔ)面向終端用戶的數(shù)字音頻直播業(yè)務(wù),例如國外Apple Music、Spotify流媒體平臺,國內(nèi)喜馬拉雅、荔枝FM、蜻蜓FM都是專注于數(shù)字音頻內(nèi)容傳播平臺,數(shù)字音頻直播業(yè)務(wù)版塊是他們非常重要的業(yè)務(wù)版塊。
數(shù)字音頻直播系統(tǒng)主要包括聲音采集、編碼、網(wǎng)絡(luò)傳輸、解碼和渲染這五大環(huán)節(jié)。早期的數(shù)字音頻直播主要是在解決高音質(zhì)的問題,就是如何讓直播系統(tǒng)的聲音保留更多的聲音頻率成分細(xì)節(jié),例如聲音采集時用電容式麥克風(fēng)而不是動圈式麥克風(fēng),因電容式麥克風(fēng)的靈敏度比較高,能捕獲到聽眾所需要的足夠多的聲音細(xì)節(jié)。數(shù)字音頻編碼器由MP3、AAC到最新MPEG-H,目的都是在盡量保留聲音細(xì)節(jié)的情況下以最小的碼率便于網(wǎng)絡(luò)傳輸。4G移動網(wǎng)絡(luò)的當(dāng)下,保留覆蓋人類可聽頻率數(shù)字音頻直播系統(tǒng)已全面的推廣和應(yīng)用中。
數(shù)字音頻直播中聲音本身的細(xì)節(jié)滿足后,用戶就提出更高的需求,就是在聽眾側(cè)能完全重放開播側(cè)的聲場,讓聽眾對聲音更有沉浸感。聲場空間信息的撿拾與重放是一項橫跨聲學(xué)(物理學(xué))、信號處理和雙耳聽覺等若干科學(xué)領(lǐng)域的跨學(xué)科研究課題。在近幾十年來,許多研究對聲場空間信息的撿拾與重放做了大量的工作。建立了三種聲音空間撿拾與重放系統(tǒng):波前合成(WFS)[1],矢量基幅度相移[2]和Ambisonics系統(tǒng)[3-6]。WFS最大的缺點:如果要產(chǎn)生一個較為理想的聲場,就需要一定數(shù)量的揚聲器,一般是上百個以上。除此之外WFS算法相當(dāng)復(fù)雜,無法在移動設(shè)備上進行重放。VBAP是把每個揚聲器輸出的信號當(dāng)做一個矢量,其大小為信號幅度、方向為揚聲器指向聽音者位置的方向,根據(jù)矢量重放方法在指定位置重放虛擬聲像。VBAP僅僅是涉及到重放部分,且是通過虛擬聲場來產(chǎn)生聲場空間信息,這樣往往很難產(chǎn)生準(zhǔn)確的主觀聽覺上的空間聲場,且后期制作時要充分考慮到現(xiàn)場揚聲器的排布。
WFS、VBAP和高階Ambisonics系統(tǒng)三維音頻系統(tǒng)有一個共同的問題就是實現(xiàn)成本高,聲音拾取和重放都是依賴于超多通道,在移動互聯(lián)網(wǎng)應(yīng)用場景無法推廣。在VR技術(shù)推動下,基于球諧域分解理論一階Ambisonics系統(tǒng)聲音采集設(shè)備、編碼格式都得到企業(yè)和科研人員廣泛的關(guān)注。本文以球諧域理論為基礎(chǔ)將三維音頻直播系統(tǒng)從聲音采集、編碼、傳輸和解碼進行硬件選型和軟件系統(tǒng)設(shè)計,實現(xiàn)了一套成本低、易操作且聲音空間感和沉浸感高保真的三維音頻直播系統(tǒng),為移動互聯(lián)網(wǎng)三維音頻直播場景中應(yīng)用提出了一種新的解決方案。
球形聲學(xué)描述了球形幾何形狀上的聲學(xué)處理方法,“球面聲源”或“點聲源”在自由條件下,產(chǎn)生的聲場是以點狀聲源為球心的球面上呈均勻分布并延半徑方向向外擴展。聲音是“縱波”,其傳播方向和振動方向相同,是機械振動狀態(tài)在介質(zhì)的傳播并能被人或動物聽覺器官所感知的波動現(xiàn)象。波動方程可以在笛卡爾坐標(biāo)系、圓柱坐標(biāo)系或球極坐標(biāo)系中進行表示。對于點聲源來說,球極坐標(biāo)系是一個最佳的坐標(biāo)系選擇,并且可以使用球面諧波或球面小波以非常優(yōu)雅的方式對聲場進行描述。在本文中將都是球極坐標(biāo)系中對聲場進行相關(guān)分析和處理。有關(guān)球形聲學(xué)的更全面描述,可以參考E.G. Williams相關(guān)書籍[7]。
聲波在三維空間中傳播時的波動方程為[8]:
(1)
(2)
對于聲場中某個內(nèi)部沒有聲源的有限空間Ω內(nèi),可根據(jù)聲波的三維波動方程得到聲壓關(guān)于Fourier-Bessel級數(shù)形式的解[8]:
(3)
(4)
(5)
其中,Nm,n為歸一化因子[10]:
(6)
Pm為第m階勒讓德多項式,其定義如下[10]:
(7)
B-Format介紹:B-Format是Ambisonic一階的形式,是目前VR最主要格式,主要原來是硬件上好實現(xiàn)且能兼容于當(dāng)前主流的音頻采集、編碼和傳輸系統(tǒng)。B-Format 會以WXYZ來表示:W:全指向X:前后的雙指向Y:左右的雙指向Z:上下的雙指向。單通道信號s(t)與B-formatW,X,Y,Z轉(zhuǎn)換關(guān)系式:
W(t)=kws(t)
(8)
X(t)=kxs(t)
(9)
Y(t)=kys(t)
(10)
Z(t)=kzs(t)
(11)
式中:kw、kx、ky、kz表示四自由度的系數(shù),與增益g,方位角φ,仰角θ和指向性相關(guān)系數(shù)γ有關(guān),關(guān)系表達式(12)-式(15):
(12)
(13)
(14)
(15)
逆向轉(zhuǎn)換公式(16)~(19):
φ=atan2(ky,kx)
(16)
(17)
(18)
(19)
球諧域分解方位示意圖1所示,本系統(tǒng)只考慮1階的情況(FOA)。
本文后面的三維音頻直播系統(tǒng)都是基于上述理論基礎(chǔ)。
以往重放三維空間聲音的系統(tǒng)都是通過增加聲道數(shù)和其排布位置,本文研究內(nèi)容都是針對雙耳重放這一場景便于移動端應(yīng)用,本節(jié)進行了端到端雙耳重放三維空間聲場系統(tǒng)搭建和實現(xiàn),圖2是三維空間聲場獲取和分析編碼功能框架圖,圖3是解碼渲染與重放功能框架圖。
基本過程:通過球形麥克陣列進行聲音信號采集,通過球諧域?qū)π盘栠M行分析獲得聲音信號一階Ambisonic形式B-Format 表示和點聲源的方位信息,將這些信息進行AAC編碼和傳輸。在移動端重放,通過對流進行解碼可以得到B-Format格式的四路聲音信號和聲音源的主方位信息,通過移動設(shè)備陀螺儀獲取設(shè)置當(dāng)前的方位信息,利用這兩個方位信息來準(zhǔn)確算法當(dāng)前視角完全配合的空間音源方位角度值,在對聲音信號進行最后渲染前,還在對合成的聲音信號進行音色的處理,主要是提升重放聲音的聽感。
目前基于球諧域分解理論直接采集一階Ambisonic聲場的麥克風(fēng)硬件已面世,本文的三維音頻直播系統(tǒng)直接采用Sennheiser Ambeo microphone 并配置Edirol R-44外置聲卡,直接獲取四聲道B-Format音頻信號,設(shè)備與接線如圖4所示。
本系統(tǒng)主要是通過耳機實現(xiàn)三維聲音的重放,最后一步要做向下采樣,在本系統(tǒng)中,對一單一點聲源,在重放前都會有五路信號,四路是B-Format格式信號,另一路是點聲源方向的重建信號,多一個聲源就會多出一路重建信號。下采樣會通過一個5×2的變換矩陣,等到二路聲音信號輸出。因HRTF數(shù)據(jù)都是消音室采集的,為了使聲音還要更加接近真實情況,在聲音耳機輸出前進行了雙耳混響效果處理,圖5展示了雙聲道聲音渲染流程。
基于球形麥克風(fēng)陣列三維空間聲場獲取和重放環(huán)節(jié)中,為了簡單研究或者易實現(xiàn),往往是為了高度還原空間信息,對某些環(huán)節(jié)參數(shù)進行特殊設(shè)定,例如HRTF數(shù)據(jù)的獲取一般都是消聲室里,在雙耳重放時,因為這一條件的限制導(dǎo)致產(chǎn)生的有空間感的聲音但聽感差,主要表現(xiàn)有聲音單薄、缺少厚度。本系統(tǒng)在實現(xiàn)時在最后重放渲染重放時增加了一個音效處理部分,通過多個參數(shù)調(diào)節(jié)在不損失聲音空間感的情況下有效地提升了聽感,因此部分不是本文的主要工作,只是做了個嘗試實驗,沒有做過多的理論分析。音效部分的算法組成框如圖6所示。
本節(jié)是介紹了基于球諧域理論的三維音頻直播系統(tǒng)的組成部分,主要是開播端和收聽端,開播端直接利用一階Ambisonic B-Format麥克風(fēng),通過4通道的外置聲卡可以做到便端的移動端開播。在收聽端完全做到通過普通的耳機就能聽到完整的聲場回放的效果。
三維音頻直播系統(tǒng)主要的應(yīng)用場景是讓用戶用耳機就能收聽場景,系統(tǒng)性能主要關(guān)注兩個方面:一個是整體系統(tǒng)運行效率,另一方面重點關(guān)注音頻重放空間方位重現(xiàn)的準(zhǔn)確度,本文主要通過主觀聽覺測評來評估。
性能主要是通過xCode軟件開發(fā)IDE中的Profile工具,可以看到整體帶有雙耳虛擬播放功能的播放器在 iPhone XR手機上的CPU占用,如圖7所示。
從圖7可以看出本系統(tǒng)對應(yīng)播放器進程GokuSimplePlayer CPU占在11%左右,這種低CPU占用的基本上可以跑在Android5.0和iOS 8.0以上的所有手機。
聲音重放空間方位重現(xiàn)的準(zhǔn)確度,主要通過人主觀試聽打分和利用本文第五章的客戶端評測的方法。主觀試聽主要從45名志愿者參與的測評結(jié)果后,整體個系統(tǒng)能很好地覆蓋水平面不同方位角和中垂面不同仰角,在48個測評點上進行相關(guān)主觀聽覺方位辨識測試,表1為水平面前方13方位點的測試數(shù)據(jù):
表2展示45名參與主觀方位測試的準(zhǔn)確率,分別對中垂面13個方位點進行測試。從表格中可以出端到端聲音空間信息高還原,即使對前后容易混淆的點辨識率都很高。
針對移動三維音頻直播應(yīng)用場景,本文以球諧域理論為基礎(chǔ)將三維音頻直播系統(tǒng)從聲音采集、編碼、傳輸和解碼進行硬件選型和軟件系統(tǒng)設(shè)計,實現(xiàn)了一套成本低、易操作且聲音空間感和沉浸感高保真的三維音頻直播系統(tǒng)。實驗結(jié)果表明,該系統(tǒng)在觀眾端能較好地重現(xiàn)開播端空間聲場,且實現(xiàn)所需設(shè)備便捷、同時能兼容現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)設(shè)置,能較快地實用場景中落地。
致謝:本文得到上海市科委重點支撐項目(16010500100)資助。