国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聲場(chǎng)重建的三維音頻技術(shù)

2021-10-27 09:48胡瑞敏張靈鯤王曉晨柯善發(fā)胡晨昊李登實(shí)
數(shù)據(jù)采集與處理 2021年5期
關(guān)鍵詞:混響聽音聲壓

胡瑞敏,張靈鯤,王曉晨,柯善發(fā),胡晨昊,李登實(shí)

(武漢大學(xué)計(jì)算機(jī)學(xué)院,國(guó)家多媒體軟件工程技術(shù)研究中心,武漢430072)

引 言

自2009年《阿凡達(dá)》上映以來(lái),三維(Three-dimension,3D)音視頻技術(shù)受到了廣泛的關(guān)注,并得到了長(zhǎng)足的發(fā)展?,F(xiàn)在無(wú)論是從電影院里的杜比全景聲,還是家里的5.1或者7.1系統(tǒng),再到耳機(jī)上使用到的空間音頻技術(shù),都是為了能夠讓聽音者產(chǎn)生較好的沉浸式音頻體驗(yàn)。而MPEG-H標(biāo)準(zhǔn)也成為新的沉浸式空間音頻標(biāo)準(zhǔn)[1],通過(guò)MPEG-H聽音者可以身臨其境的感受聲音,不僅僅是來(lái)自周圍的聲音,還包括來(lái)自上方的聲音,通過(guò)將聲音渲染為可移動(dòng)的物體而不是靜態(tài)的物體來(lái)獲得更真實(shí)的感知現(xiàn)實(shí)世界。法國(guó)電信2012年就已經(jīng)提出了3D音頻的定義[2],其必須能夠重建水平、高度以及距離三個(gè)自由度上的聲像。然而現(xiàn)有的產(chǎn)品或者技術(shù),離實(shí)現(xiàn)真正的3D音頻還具有一定的差距,為了實(shí)現(xiàn)逼真的空間音頻體驗(yàn),需要大量的設(shè)備來(lái)進(jìn)行回放,并且回放的效果還會(huì)受到設(shè)備的數(shù)目、布置以及回放環(huán)境的混響條件等因素的影響,這是制約著當(dāng)前3D音頻技術(shù)發(fā)展的重要問(wèn)題[3]。隨著近年來(lái)電影產(chǎn)業(yè)以及VR/AR技術(shù)的發(fā)展,3D音頻技術(shù)也成為了當(dāng)前的一個(gè)熱門研究課題。近5年來(lái),在IEEE TASLP、JASA、ICASSP、ICME等聲學(xué)和信號(hào)處理知名期刊會(huì)議上發(fā)表的與聲場(chǎng)重建相關(guān)的文章數(shù)量一直保持在80篇左右。國(guó)內(nèi)外大量從事聲學(xué)、音頻信號(hào)處理、多媒體技術(shù)的相關(guān)學(xué)者進(jìn)行了大量的研究工作。本文將綜述其中有關(guān)3D音頻技術(shù)的基本原理,以及相關(guān)信號(hào)處理方法在3D音頻技術(shù)中的應(yīng)用。

1 3D音頻技術(shù)的基本原理

3D音頻的基本原理是通過(guò)對(duì)物理空間中的聲波進(jìn)行還原重建,從而讓身處其中的聽音者再次感受到原始的聲音場(chǎng)景,以此來(lái)實(shí)現(xiàn)沉浸式的空間音頻體驗(yàn)。聲音是由空間中的介質(zhì)振動(dòng)產(chǎn)生的,而振動(dòng)的粒子之間就存在著力的作用,根據(jù)傳統(tǒng)聲學(xué)理論[4],空間聲場(chǎng)主要由聲壓(Sound pressure)和粒子速度(Particle velocity)兩個(gè)物理量來(lái)表征,其中聲壓為標(biāo)量,而粒子速度是空間中各點(diǎn)處聲壓的梯度,為矢量。由于粒子速度可以由聲壓來(lái)進(jìn)行計(jì)算轉(zhuǎn)換,在大多數(shù)研究中為了計(jì)算簡(jiǎn)便,主要以聲壓作為主要的研究對(duì)象。

由于聲壓能夠?qū)臻g聲場(chǎng)進(jìn)行表征,其包含了發(fā)出聲音的對(duì)象的距離、方位和寬度等信息,因此如何對(duì)空間中某一區(qū)域中的聲壓進(jìn)行精確的重建對(duì)較好的3D音頻體驗(yàn)具有重要意義。

聲場(chǎng)重建系統(tǒng)可以重建特定場(chǎng)景下的聲場(chǎng)。它被廣泛用于為聽眾創(chuàng)建3D音頻體驗(yàn),基本實(shí)現(xiàn)方式為:在特定混響條件下,通過(guò)一組布置好的揚(yáng)聲器陣列來(lái)對(duì)聲場(chǎng)(聲壓)進(jìn)行重建。根據(jù)想要重建的物理聲場(chǎng),通過(guò)不同的理論計(jì)算出揚(yáng)聲器的驅(qū)動(dòng)信號(hào),并利用驅(qū)動(dòng)信號(hào)回放出目標(biāo)聲學(xué)環(huán)境,從而實(shí)現(xiàn)聽音者的沉浸式空間音頻體驗(yàn)?;镜目臻g聲場(chǎng)重建模型為[5]

式中:p為空間聲場(chǎng)的量化指標(biāo),通常為聲壓的集合;H代表著揚(yáng)聲器陣列在當(dāng)前環(huán)境下,從揚(yáng)聲器到目標(biāo)聲場(chǎng)的重建位置之間的空間傳遞函數(shù),其表征了聲波經(jīng)過(guò)環(huán)境的反射以及衍射等作用后,到達(dá)最終位置處的濾波作用;s為各揚(yáng)聲器的驅(qū)動(dòng)信號(hào)。整個(gè)3D聲場(chǎng)重建理論即圍繞著如何在給定布置下,利用空間傳遞函數(shù)H,求解出能夠最佳逼近目標(biāo)空間聲場(chǎng)p0的揚(yáng)聲器驅(qū)動(dòng)信號(hào)來(lái)進(jìn)行研究。在很多研究中,為了簡(jiǎn)化計(jì)算,通常優(yōu)先在理想條件下(即消聲室無(wú)混響的環(huán)境下)進(jìn)行聲場(chǎng)重建,并且將放置在1.4 m以外的揚(yáng)聲器看作點(diǎn)聲源,其輻射出的聲波近似為球面波[6]。然后才通過(guò)混響均衡的方法來(lái)對(duì)揚(yáng)聲器的驅(qū)動(dòng)信號(hào)進(jìn)行均衡[5]

式中:R為對(duì)應(yīng)的均衡函數(shù),實(shí)現(xiàn)理想環(huán)境下?lián)P聲器驅(qū)動(dòng)信號(hào)到混響環(huán)境下的驅(qū)動(dòng)信號(hào)的映射。求解新的驅(qū)動(dòng)信號(hào)s′使得其在混響環(huán)境下依然能夠達(dá)到理想條件下想要重建的聲場(chǎng)效果。

通過(guò)以上分析可以發(fā)現(xiàn),理想條件下3D聲場(chǎng)的重建以及混響均衡對(duì)3D音頻系統(tǒng)的實(shí)現(xiàn)有重要意義,這也是近些年3D音頻技術(shù)發(fā)展的兩個(gè)核心問(wèn)題。

2 3D聲場(chǎng)的重建

2.1 3D聲場(chǎng)的表達(dá)與維度

球諧理論是聲場(chǎng)分析及重建領(lǐng)域中很重要的一個(gè)理論。聲場(chǎng)的球諧表達(dá)是波動(dòng)方程的一組解[7],它通過(guò)一組互相正交的球諧函數(shù)(Spherical harmonics function)對(duì)空間聲場(chǎng)進(jìn)行表達(dá)。對(duì)于空間中某區(qū)域中的任意一點(diǎn)x處的聲場(chǎng),可以通過(guò)球諧函數(shù)的線性組合進(jìn)行表達(dá)[4]

式中:Cnm(·)為對(duì)應(yīng)球諧函數(shù)Ynm(·)的系數(shù),c為聲波的傳播速度,f為當(dāng)前計(jì)算頻率,|x|為點(diǎn)x的到原點(diǎn)的距離,x?為點(diǎn)x的方向向量,jn(·)為第1類n階球貝塞爾函數(shù),Ynm(·)為文獻(xiàn)[7]定義的球諧函數(shù)。

式中Pn|m|(·)為聯(lián)合勒讓德函數(shù)。

該函數(shù)的表現(xiàn)形式如圖1所示。

圖1 各階球諧函數(shù)示意圖Fig.1 Schematic of spherical harmonic function for each order

球諧函數(shù)在單位球面上滿足正交特性。利用正交性原理,可以得到對(duì)應(yīng)球諧系數(shù)的計(jì)算方式,這也是基于球諧理論推導(dǎo)出的麥克風(fēng)采集原理。當(dāng)采用離散點(diǎn)處的聲壓對(duì)空間連續(xù)聲場(chǎng)進(jìn)行估計(jì)時(shí),就得到空間連續(xù)聲場(chǎng)的采集方法,其采集精度隨著麥克風(fēng)的數(shù)量的增加而提升

式中:p(Rxq;f)即球表面上麥克風(fēng)采集到的聲壓;為了彌補(bǔ)對(duì)無(wú)窮級(jí)數(shù)截?cái)嘁院螽a(chǎn)生的誤差,ωq為在各點(diǎn)處增加的權(quán)重。式(6)也能夠用于計(jì)算虛擬聲源的球諧表達(dá)系數(shù)。

盡管通過(guò)球諧函數(shù)已經(jīng)能夠?qū)β晥?chǎng)進(jìn)行精確的表達(dá),但是在實(shí)際使用球諧的表達(dá)過(guò)程中,需要對(duì)聲場(chǎng)的無(wú)窮球諧級(jí)數(shù)的表達(dá)進(jìn)行截?cái)?。一方面?duì)無(wú)窮級(jí)數(shù)的截?cái)鄷?huì)使得球諧表達(dá)產(chǎn)生誤差,另一方面又需要確定需要用多少個(gè)球諧函數(shù)來(lái)對(duì)其進(jìn)行表達(dá),使得表達(dá)后的聲場(chǎng)能夠滿足目標(biāo)精度。這就涉及聲場(chǎng)重建中的球諧表達(dá)維度以及截?cái)嗾`差的研究。

通過(guò)多少揚(yáng)聲器能夠在特定范圍內(nèi)重建聲場(chǎng)的問(wèn)題本質(zhì)上是無(wú)線通信環(huán)境下多通路場(chǎng)(Multipath fields)的空間維度問(wèn)題[8-9],該理論能夠用于通信系統(tǒng)范圍的擴(kuò)大、容量增加、數(shù)據(jù)率提升以及降低誤碼率等。對(duì)無(wú)線通信環(huán)境下多通路的空間維度的研究主要分為兩種理論,一種是基于統(tǒng)計(jì)學(xué)數(shù)據(jù)的統(tǒng)計(jì)模型,另一種是理論分析模型。

對(duì)于統(tǒng)計(jì)學(xué)模型,主要是根據(jù)采集或生成的大量數(shù)據(jù)中的參數(shù)特征進(jìn)行分析,而其中比較常用到的特征包括了到達(dá)角[10]、空間信號(hào)相關(guān)性[11]和多徑分布的變化[12]等。另外,對(duì)于理論分析方法有一個(gè)基本的假設(shè),即多離散遠(yuǎn)場(chǎng)源模型,該假設(shè)認(rèn)為空間多通路場(chǎng)是由多個(gè)遠(yuǎn)場(chǎng)的源產(chǎn)生的信號(hào)/波的疊加而構(gòu)成的。不同的散射源會(huì)產(chǎn)生不同的場(chǎng)分布,而多個(gè)散射源在目標(biāo)位置處按照自身權(quán)重加權(quán)后線性疊加得到當(dāng)前的空間多通路場(chǎng),進(jìn)而用于對(duì)空間場(chǎng)的維度進(jìn)行分析。

在聲場(chǎng)重建領(lǐng)域較為著名的理論是Kennedy等[13]提出的理論,被廣泛運(yùn)用于確定所需重建聲場(chǎng)的揚(yáng)聲器數(shù)目以及所需采集聲場(chǎng)的麥克風(fēng)數(shù)目。該理論給出了給定空間范圍以及頻率范圍內(nèi),空間多路場(chǎng)的維度的一個(gè)上限,其中e為自然常數(shù);k為給定頻率f對(duì)應(yīng)的波數(shù),具體有為聲波的傳播速度;r為給定的空間范圍半徑為上取整函數(shù)。當(dāng)用于二維空間(平面區(qū)域)重建時(shí)該維度上限為2N+1,當(dāng)用于3D空間重建時(shí),該維度為(N+1)2。

該方法推導(dǎo)出來(lái)的維度上界一直被廣泛使用至今[14],根據(jù)該維度對(duì)球諧表達(dá)式進(jìn)行截?cái)嗪蟮慕財(cái)嗾`差能夠保持在4%以下。雖然該方法給出了一個(gè)空間維度的上界,但是并不代表著在任何應(yīng)用場(chǎng)景下都必須具有那么高的維度才能夠?qū)臻g場(chǎng)進(jìn)行表達(dá),這能夠?yàn)橹亟ōh(huán)境下初步確定揚(yáng)聲器以及麥克風(fēng)的數(shù)量提供理論指導(dǎo),但是也存在進(jìn)一步的降低空間,后續(xù)很多研究都能夠在一定的情況下突破這個(gè)上界[15],利用更少的揚(yáng)聲器或者麥克風(fēng)實(shí)現(xiàn)聲場(chǎng)的重建或者采集[16]。

由于球諧表達(dá)的截?cái)嗾`差僅僅是由聲場(chǎng)的近似表達(dá)產(chǎn)生的誤差,另外在聲場(chǎng)重建過(guò)程中的各種理論計(jì)算也會(huì)產(chǎn)生一定的誤差。這兩種誤差共同構(gòu)成了聲場(chǎng)重建過(guò)程中的誤差,而第1種誤差(即截?cái)嗾`差)目前并未有新理論能夠?qū)β晥?chǎng)的球諧表達(dá)進(jìn)行替代,一直被廣泛應(yīng)用到現(xiàn)在。第2種誤差(即重建誤差)主要受到揚(yáng)聲器的數(shù)目和排布以及相應(yīng)的重建理論的影響。

2.2 標(biāo)準(zhǔn)揚(yáng)聲器陣列重建

第一個(gè)實(shí)際展示出的空間聲場(chǎng)重建案例是在1968年由伊利諾伊理工學(xué)院的Camras完成的[17]。在這個(gè)案例中,通過(guò)布置在目標(biāo)區(qū)域邊界上的大量揚(yáng)聲器進(jìn)行回放,揚(yáng)聲器產(chǎn)生的聲波在目標(biāo)區(qū)域內(nèi)疊加從而得到目標(biāo)聲場(chǎng),并且能夠讓聽音者自由地在該重建環(huán)境中的區(qū)域內(nèi)移動(dòng),而保持相應(yīng)的聽覺體驗(yàn)。

為了能夠更便捷地讓聽音者感受到原始聲音場(chǎng)景下的沉浸式體驗(yàn),1985年,Gerzon[18]提出了最初的Ambisonics聲場(chǎng)重建系統(tǒng),該方法使用4個(gè)揚(yáng)聲器組成的陣列對(duì)聲場(chǎng)進(jìn)行重建。該技術(shù)最早是開發(fā)來(lái)進(jìn)行聲場(chǎng)錄制的,后來(lái)被用到了聲場(chǎng)重建方案中。該方案基于目標(biāo)聲場(chǎng)的一階球諧系數(shù)分解而設(shè)計(jì)。

盡管最初的四通道Ambisonics系統(tǒng)能夠一定程度上的重建聲場(chǎng),然而僅能在空間單點(diǎn)附近達(dá)到4%左右的重建誤差。為了進(jìn)一步擴(kuò)大重建的區(qū)域,最初的Ambisonics被改進(jìn)為高階Ambisonics(Higher orders of ambisonics,HOA)系統(tǒng)[19]。該方法通過(guò)對(duì)聲場(chǎng)的更高階的球諧表達(dá)進(jìn)行重建,可以在1 kHz的頻率下通過(guò)25個(gè)揚(yáng)聲器在0.2 m半徑的球體內(nèi)以3%~5%的誤差來(lái)重建聲場(chǎng)。但是該方法也需要將揚(yáng)聲器均勻的布置到圍繞目標(biāo)區(qū)域的球面上,來(lái)實(shí)現(xiàn)區(qū)域中心位置處的聲場(chǎng)的重建[20-21]。該方法在對(duì)平面波聲場(chǎng)進(jìn)行球諧分解的同時(shí),還對(duì)分解以后不同截?cái)嚯A數(shù)的球諧系數(shù)對(duì)應(yīng)的聲場(chǎng)截?cái)嗾`差進(jìn)行了分析,根據(jù)經(jīng)驗(yàn)法則給出了一個(gè)與目標(biāo)重建波數(shù)k以及目標(biāo)重建區(qū)域半徑r有關(guān)的截?cái)嚯A數(shù)建議:在這個(gè)截?cái)嚯A數(shù)下能夠保證大約4%的聲場(chǎng)誤差。進(jìn)一步根據(jù)截?cái)嚯A數(shù)判斷所需要重建的聲場(chǎng)的維度,進(jìn)而確定所需的最少揚(yáng)聲器數(shù)目。與2.1節(jié)中提到的空間多通路場(chǎng)給出的維度定理具有非常小的差距,對(duì)后續(xù)關(guān)于Ambisonics的研究都產(chǎn)生了較大影響[22-24]。

該方法還有兩個(gè)特別值得注意的地方。(1)雖然按照給定的截?cái)嚯A數(shù)大致能夠確定聲場(chǎng)的截?cái)嗾`差,但在實(shí)際重建過(guò)程中,如果按照所給出的N來(lái)確定對(duì)應(yīng)的揚(yáng)聲器數(shù)目是不夠的,該數(shù)量下的揚(yáng)聲器并不一定能夠產(chǎn)生那么多的聲場(chǎng)模式(球諧函數(shù)),從而難以保證在滿足階數(shù)條件后聲場(chǎng)的重建誤差。(2)該方法通過(guò)求逆的方式來(lái)完成對(duì)揚(yáng)聲器的驅(qū)動(dòng)信號(hào)的求解,系數(shù)矩陣的條件數(shù)對(duì)結(jié)果影響較大,這種情況下重建陣列產(chǎn)生的誤差是難以控制的,重建產(chǎn)生的誤差可能會(huì)很大。而揚(yáng)聲器陣列的排布對(duì)系數(shù)矩陣具有很大的影響力,進(jìn)而產(chǎn)生了兩種主要研究思路:(1)以標(biāo)準(zhǔn)的球面排布的標(biāo)準(zhǔn)陣列模式進(jìn)行聲場(chǎng)重建來(lái)保證系數(shù)矩陣的條件數(shù)保持在較好的情況下;(2)以不同的非標(biāo)準(zhǔn)陣列來(lái)研究聲場(chǎng)重建的效果,這種情況下需要探索具有較好條件數(shù)的揚(yáng)聲器陣列布置或者探索新的求解路線。

正因?yàn)槲墨I(xiàn)[19]中的HOA方法需要通過(guò)求逆來(lái)獲取揚(yáng)聲器的驅(qū)動(dòng)信號(hào),為了減弱求逆產(chǎn)生的影響,Poletti[25]提出了一種減少求解揚(yáng)聲器驅(qū)動(dòng)信號(hào)過(guò)程中求逆運(yùn)算的簡(jiǎn)單源法(Simple source approach,SSA)。該方法假設(shè)聲場(chǎng)是由覆蓋在目標(biāo)區(qū)域表面上的無(wú)窮多個(gè)簡(jiǎn)單聲源輻射出的聲波所構(gòu)成的,并且給出了相應(yīng)的證明,即封閉區(qū)域表面上的次級(jí)聲源產(chǎn)生的聲波可以表達(dá)區(qū)域內(nèi)的任意聲場(chǎng)。這種情況下目標(biāo)聲場(chǎng)是由球面上的簡(jiǎn)單聲源產(chǎn)生的聲場(chǎng)的積分構(gòu)成,而球面上簡(jiǎn)單聲源的構(gòu)成是具有解析解的,兩者結(jié)合直接推導(dǎo)出SSA的求解公式,避免了對(duì)揚(yáng)聲器產(chǎn)生的球諧模式矩陣的求逆,提升了基于球諧的聲場(chǎng)重建方法的性能。

Ahrens等[26]又在標(biāo)準(zhǔn)的二維圓形揚(yáng)聲器陣列的情況下進(jìn)一步推導(dǎo)出了面向平面波重建的SSA。進(jìn)一步證實(shí)了SSA在大量揚(yáng)聲器情況下的有效性。然而SSA是利用了目標(biāo)區(qū)域表面的無(wú)窮次級(jí)聲源來(lái)構(gòu)成任意聲場(chǎng)的理論基礎(chǔ)推導(dǎo)而來(lái),實(shí)際使用中需要將這個(gè)表達(dá)離散化,而離散化會(huì)產(chǎn)生怎樣的誤差卻并未被較好分析。

Wu等[27]將SSA拓展到了3D情況,分析了SSA在不同程度的離散化情況下產(chǎn)生的誤差變化情況,同時(shí)又通過(guò)在計(jì)算離散分布的揚(yáng)聲器驅(qū)動(dòng)信號(hào)權(quán)重時(shí)乘以了一個(gè)面積權(quán)重來(lái)進(jìn)一步提高該方法的性能??傊?,SSA與傳統(tǒng)基于求逆的最小二乘法相比,能夠更好地從物理本質(zhì)層面上來(lái)體現(xiàn)其解的意義,也在一定程度上降低了傳統(tǒng)HOA算法的最小二乘解在求逆時(shí)的不穩(wěn)定性。

除了經(jīng)典的HOA算法以及SSA以外,還有一類最直觀的聲壓匹配算法(Pressures matching,PM)。該類方法直接根據(jù)揚(yáng)聲器陣列在目標(biāo)位置處產(chǎn)生的聲壓線性疊加后與目標(biāo)聲壓值進(jìn)行匹配,利用最小二乘法求解得到對(duì)應(yīng)的揚(yáng)聲器驅(qū)動(dòng)信號(hào)[28-29]。然而這類在離散位置處匹配聲壓的方法,雖然能夠在目標(biāo)位置處達(dá)到比較好的聲壓匹配效果,但是會(huì)產(chǎn)生一些不良的后果,例如,在目標(biāo)位置附近的聲壓不受控制,可能會(huì)產(chǎn)生較大誤差。目前的研究主要還是以面向連續(xù)聲場(chǎng)的聲場(chǎng)重建為主。

在標(biāo)準(zhǔn)陣列上的基礎(chǔ)理論研究在近些年并未發(fā)生本質(zhì)改變,更多的目光聚集在如何通過(guò)便捷性的陣列對(duì)聲場(chǎng)進(jìn)行重建,或者在揚(yáng)聲器數(shù)目較少以及布置不佳的情況下更好地重建3D聲場(chǎng)來(lái)實(shí)現(xiàn)聽眾的沉浸式聽音感受,即非標(biāo)準(zhǔn)揚(yáng)聲器陣列下的3D聲場(chǎng)重建技術(shù)。

2.3 非標(biāo)準(zhǔn)揚(yáng)聲器陣列重建

2.3.1 特定布置揚(yáng)聲器陣列的重建

為了提高用于聲場(chǎng)重建的揚(yáng)聲器陣列布置的便捷性,有兩種主要的思路來(lái)進(jìn)行改進(jìn):(1)從球面揚(yáng)聲器陣列的理論為起點(diǎn)進(jìn)行變換,找到能夠更好布置揚(yáng)聲器的方案及其理論,其中最主要的是基于多圈揚(yáng)聲器的揚(yáng)聲器陣列;(2)直接從布置的便捷性角度來(lái)進(jìn)行分析推導(dǎo),優(yōu)化特定布置下的重建效果,以逼近球面陣列的重建效果,其中常見的形狀有矩形揚(yáng)聲器陣列、線性和平面揚(yáng)聲器陣列以及雙平面揚(yáng)聲器陣列。

在分析聲場(chǎng)重建理論時(shí),F(xiàn)azi等[30-32]引入了泛函分析的框架。與上面提到的SSA的思想類似,該框架也是從目標(biāo)重建區(qū)域表面的連續(xù)次級(jí)聲源對(duì)內(nèi)部聲場(chǎng)的表達(dá)開始的,通過(guò)構(gòu)造出的算子,并利用奇異值分解(Singular value decomposition,SVD),將內(nèi)部聲場(chǎng)的分布進(jìn)行表達(dá),最終實(shí)現(xiàn)用特征值對(duì)目標(biāo)區(qū)域表面的次級(jí)聲源強(qiáng)度(即揚(yáng)聲器驅(qū)動(dòng)信號(hào))的表達(dá)。分別在球面坐標(biāo)系以及柱面坐標(biāo)系上進(jìn)行求解,可以得到標(biāo)準(zhǔn)的HOA解以及通過(guò)圓形揚(yáng)聲器陣列進(jìn)行聲場(chǎng)重建的解。這個(gè)方法在泛函框架的基礎(chǔ)上實(shí)現(xiàn)了兩個(gè)同心圓上以及球體上的聲場(chǎng)重建的推導(dǎo)。

Zhang等[33]在此基礎(chǔ)上將該框架擴(kuò)展到了3D聲場(chǎng)重建上,該方法首先假設(shè)3D空間中有無(wú)窮多個(gè)連續(xù)分布在不同高度上的圓形揚(yáng)聲器陣列,并分析其中單一圓形揚(yáng)聲器陣列能夠有效覆蓋到的空間角度,發(fā)現(xiàn)其中的高度模式主要由聯(lián)合勒讓德函數(shù)(即式(5)中的Pn|m|(·))決定,而離散化后的聯(lián)合勒讓德函數(shù)在最高階數(shù)以及最高項(xiàng)(即n=N,m=N)時(shí)主瓣寬度最窄,所有更小項(xiàng)的范圍都能夠覆蓋其主瓣。選擇主瓣的兩個(gè)零點(diǎn)之間的范圍作為圓形揚(yáng)聲器陣列的有效范圍能夠最大化的包括其有效范圍,得到了兩個(gè)同心圓之間的高度角差距Δθ<2/N,其中N為圓形揚(yáng)聲器陣列對(duì)應(yīng)的階數(shù)(對(duì)應(yīng)的揚(yáng)聲器數(shù)為2N+1),從而確定了多圈揚(yáng)聲器的構(gòu)造。在重建聲源的時(shí)候選擇需要激活的圈層來(lái)對(duì)聲場(chǎng)進(jìn)行重建,類似于傳統(tǒng)Panning算法的思路,通過(guò)相鄰的圓形揚(yáng)聲器陣列來(lái)進(jìn)行重建。而不同于傳統(tǒng)的HOA方法,在重建任意聲場(chǎng)的時(shí)候都使用所有揚(yáng)聲器來(lái)進(jìn)行重建。該方法在500 Hz的頻率下通過(guò)15個(gè)揚(yáng)聲器在0.5 m范圍內(nèi)的球體內(nèi)以1%左右的誤差重建了聲場(chǎng)。

另一類是從便捷性角度出發(fā)的揚(yáng)聲器陣列。其中Naoe[34]提出了一種8個(gè)揚(yáng)聲器的矩形揚(yáng)聲器陣列,剛好把球面陣列上的揚(yáng)聲器轉(zhuǎn)化到了一個(gè)立方體的8個(gè)頂點(diǎn)位置,跟家庭環(huán)境下的房間位置具有一致性。在相應(yīng)的主觀評(píng)測(cè)中,驗(yàn)證了17個(gè)方向上的聲波重建效果,其中14個(gè)方位的效果都具有良好的定位效果。Ahrens等[35]研究了平面以及線性揚(yáng)聲器陣列的重建性能,通過(guò)分布式的布置線性陣列來(lái)實(shí)現(xiàn)3D聲場(chǎng)重建。與立方體形狀的揚(yáng)聲器布置類似,Chen等[36]設(shè)計(jì)了一種上下兩層結(jié)構(gòu)的揚(yáng)聲器陣列,分布在頂部和底部,通過(guò)設(shè)計(jì)的陣列分別對(duì)奇數(shù)階和偶數(shù)階的聲場(chǎng)進(jìn)行重建,與立方體形狀的陣列相比,一方面增加了揚(yáng)聲器的數(shù)目,提高了揚(yáng)聲器的精度,另一方面又保證了頂部和底部的相對(duì)便捷性的布置。

盡管不同形狀的揚(yáng)聲器陣列都被設(shè)計(jì)用來(lái)對(duì)3D聲場(chǎng)進(jìn)行重建,然而由于聲場(chǎng)重建的理論基礎(chǔ),想要對(duì)空間聲場(chǎng)進(jìn)行重建,所用到的揚(yáng)聲器數(shù)目必須滿足空間采樣定理,必然需要用到數(shù)量較多的揚(yáng)聲器。為了進(jìn)一步提高在揚(yáng)聲器數(shù)目較少或者揚(yáng)聲器布置不規(guī)則的條件下聽音者的3D聽音體驗(yàn),還有很多研究聚焦于在給定的揚(yáng)聲器布置下來(lái)對(duì)3D聲場(chǎng)進(jìn)行重建,此時(shí)需要重建的不僅僅是3D聲場(chǎng)本身,還有一些跟主觀聽音感受有關(guān)的物理線索。

2.3.2 任意非標(biāo)準(zhǔn)揚(yáng)聲器陣列的重建

在基于耳機(jī)的3D音頻技術(shù)中,主要是通過(guò)采集到的頭相關(guān)傳輸函數(shù)(Head related transfer function,HRTF)來(lái)對(duì)雙耳需要接收到的聽音信號(hào)進(jìn)行重建[37]。其中就涉及了主觀聽音的物理線索,例如雙耳間時(shí)間差(Interaural time difference,ITD)和雙耳間強(qiáng)度差(Interaural level difference,ILD)是對(duì)人類的定位感影響最明顯的兩個(gè)物理量[38]。與基于耳機(jī)的3D音頻技術(shù)類似,基于物理聲場(chǎng)的重建中也有類似的對(duì)主觀聽音感受有明顯影響的物理量。從文獻(xiàn)[7]中可知,空間聲場(chǎng)主要由聲壓(Sound pressure)和粒子速度(Particle velocity)兩個(gè)物理量來(lái)表征,其中聲壓為標(biāo)量,而粒子速度是空間中各點(diǎn)處聲壓的梯度,為矢量。由于粒子速度可以由聲壓來(lái)進(jìn)行計(jì)算轉(zhuǎn)換,在大多數(shù)研究中為了計(jì)算簡(jiǎn)便,主要以聲壓作為主要的研究對(duì)象。然而,粒子速度也被證明是與主觀聽音感受有關(guān)的物理量[39-40]。

在22.2多聲道系統(tǒng)下混算法[40]中用到了這樣的方法,當(dāng)揚(yáng)聲器數(shù)目較少時(shí),用3個(gè)包圍了22聲道系統(tǒng)中任意聲道的揚(yáng)聲器來(lái)對(duì)其進(jìn)行替代,實(shí)現(xiàn)由22聲道到更低聲道的下混,其核心原理為保持3個(gè)揚(yáng)聲器與對(duì)應(yīng)的替代揚(yáng)聲器在中心點(diǎn)處產(chǎn)生的聲壓和粒子速度不變。在該研究中,該方法下混到的10聲道和8聲道系統(tǒng)都具有較好的主觀聽音效果。值得注意的是,該方法借鑒的是經(jīng)典的基于向量的幅度平移(Vector-based amplitude panning,VBAP)算法[41]中的思想,通過(guò)3個(gè)揚(yáng)聲器到中心點(diǎn)處的矢量的線性疊加來(lái)表達(dá)虛擬聲源。VBAP算法已經(jīng)在工業(yè)界得到了大量的應(yīng)用,其主觀聽音效果的有效性也有粒子速度重建的貢獻(xiàn)。

為了在聲場(chǎng)重建系統(tǒng)中控制粒子速度。Shin等[42]提出了一種能夠?qū)αW铀俣冗M(jìn)行控制的聲場(chǎng)重建技術(shù),單獨(dú)通過(guò)粒子速度的重建來(lái)實(shí)現(xiàn)聲場(chǎng)的重建。粒子速度是一個(gè)矢量,僅對(duì)粒子速度進(jìn)行控制,由于維度變?yōu)榱寺晧壕S度的3倍,在相同的揚(yáng)聲器陣列下,能夠有效重建的點(diǎn)數(shù)會(huì)大幅度降低,由于該算法僅僅對(duì)粒子速度進(jìn)行重建,明顯提高了整個(gè)聲壓場(chǎng)的重建誤差。在后續(xù)工作中提出了一種基于聲壓和粒子速度的聯(lián)合優(yōu)化方法[42-43],并分析了粒子速度如何對(duì)聲場(chǎng)重建的誤差產(chǎn)生影響。另外,此類基于粒子速度的方法都是通過(guò)對(duì)離散空間表面區(qū)域上的粒子速度進(jìn)行控制,而并非控制連續(xù)空間內(nèi)的粒子速度。為了保證聲場(chǎng)重建的有效性,需要利用大量的揚(yáng)聲器控制大量點(diǎn)處的粒子速度,這種方式效率較低。Zuo等[44]提出了一種對(duì)連續(xù)空間中的聲壓和粒子速度聯(lián)合優(yōu)化的算法,該方法與聲場(chǎng)的球諧表達(dá)類似,推導(dǎo)出了連續(xù)空間內(nèi)部粒子速度的球諧表達(dá)方法,通過(guò)聯(lián)合優(yōu)化聲壓和粒子速度的重建誤差來(lái)達(dá)到目標(biāo)區(qū)域的聲場(chǎng)控制。除了粒子速度以外,聲強(qiáng)(Intensity)也被認(rèn)為是對(duì)主觀聽音效果有影響的物理線索,在文獻(xiàn)[45]中通過(guò)對(duì)聲強(qiáng)的球諧表達(dá)的推導(dǎo)來(lái)實(shí)現(xiàn)對(duì)空間聲強(qiáng)場(chǎng)的控制。

2.4 房間混響均衡

房間響應(yīng)均衡(Room response equalization,RRE)已在理論上進(jìn)行了研究并應(yīng)用于實(shí)踐中,以改善聲場(chǎng)重建的質(zhì)量,從而減少家庭環(huán)境對(duì)重建系統(tǒng)的影響。在RRE系統(tǒng)中,房間傳遞函數(shù)(Room transfer function,RTF)表征了從揚(yáng)聲器到收聽者的聲音傳播路徑,通過(guò)設(shè)計(jì)合適的均衡器來(lái)對(duì)RTF進(jìn)行均衡來(lái)實(shí)現(xiàn)混響均衡。該均衡器可通過(guò)多種方法得到?;舅枷胧鞘褂名溈孙L(fēng)測(cè)量特定位置處的房間脈沖響應(yīng),然后通過(guò)計(jì)算其逆來(lái)獲得均衡器。通過(guò)將該均衡器應(yīng)用到理想環(huán)境(自由場(chǎng)條件,不考慮環(huán)境反射和衍射等的影響)下的聲場(chǎng)重建方案來(lái)實(shí)現(xiàn)混響條件下的聲場(chǎng)重建。

Elliott和Nelson[46]提出了最早的多點(diǎn)均衡方法之一,在該項(xiàng)研究中提出了一個(gè)用于設(shè)計(jì)聲場(chǎng)重建系統(tǒng)中混響均衡器的方法,在當(dāng)前房間中的多個(gè)點(diǎn)處,通過(guò)調(diào)整混響脈沖響應(yīng)的系數(shù),使得當(dāng)前房間脈沖響應(yīng)與目標(biāo)脈沖響應(yīng)均方誤差的和最小,從而得到混響均衡濾波器。該研究同時(shí)給出了基于固定均衡器的和自適應(yīng)均衡器的方法。該方法得到了較為廣泛的應(yīng)用,并且還被許多其他方法所改進(jìn)[47-49],但存在一個(gè)明顯缺點(diǎn),即通過(guò)均方誤差的最小化不足以描述房間脈沖響應(yīng)的相似性,并且在某些位置也無(wú)法設(shè)計(jì)出達(dá)到要求的均衡濾波器。另外,在車載混響均衡的背景下,Elliott等[50]通過(guò)考慮有誤差的加權(quán)平均的多點(diǎn)均衡算法對(duì)該方法進(jìn)行了改進(jìn),該解決方案在所選位置處的響應(yīng)中實(shí)現(xiàn)了提升,并且在其他位置效果也沒有發(fā)生明顯衰減。

進(jìn)一步還可以利用不同空間分布的房間響應(yīng)之間的相似性,通過(guò)選擇不同的距離度量對(duì)它們進(jìn)行聚類來(lái),實(shí)現(xiàn)多個(gè)位置處的混響均衡。Mourjopoulos[51]提出了一個(gè)思路:將房間內(nèi)具有較大相似度的RTF組合在一起,組合之后的RTF被分為了少數(shù)幾類,就可以通過(guò)對(duì)較少數(shù)量的均衡器進(jìn)行均衡來(lái)實(shí)現(xiàn)整個(gè)范圍的均衡。使用LPC進(jìn)行分析,然后通過(guò)全極點(diǎn)濾波器對(duì)RTF進(jìn)行建模,從而設(shè)計(jì)出最小相位均衡器。該分類的結(jié)果可以用作空間均衡庫(kù),根據(jù)收聽者的實(shí)際位置,實(shí)現(xiàn)房間內(nèi)各種不同位置處的混響均衡。但是該方法依然存在明顯的缺點(diǎn):必須采集和記錄大量房間響應(yīng)和均衡器并且需要實(shí)時(shí)跟蹤收聽者的位置。在文獻(xiàn)[52-53]中通過(guò)將頻率變形和模糊c均值聚類應(yīng)用于混響均衡中,之后由Carini[54-55]改進(jìn)后,大幅度降低了計(jì)算復(fù)雜度。Turmchokkasam和Mitaim[56]還在混響均衡中引入了加權(quán)的模糊c均值聚類,通過(guò)對(duì)不同的房間脈沖響應(yīng)樣本以不同方式加權(quán)來(lái)說(shuō)明它們對(duì)RRE的不同影響。

文獻(xiàn)[52-53]的模糊c均值聚類方法也是“多點(diǎn)原型方法”的第一個(gè)例子。這類方法通過(guò)測(cè)量得到的不同位置的房間響應(yīng)來(lái)提取原型響應(yīng),通過(guò)該原型響應(yīng)表示必須被均衡的感知聲學(xué)信息。然后在此原型響應(yīng)的基礎(chǔ)上,使用間接或直接的方法來(lái)設(shè)計(jì)單個(gè)均衡器[57]。Cecchi等[58]研究了確定原型響應(yīng)的不同方法。具體來(lái)說(shuō),就是將模糊c均值方法與計(jì)算平均值、中值、min-max和均方根平均值的方法進(jìn)行了比較,并在對(duì)頻譜進(jìn)行平滑處理后通過(guò)Kirkeby算法[59]或LPC分析得到均衡器,進(jìn)行最小相位均衡。在所考慮的條件下,平均值方法給出了最好的結(jié)果,其他方法也提供了相近的性能效果。之后基于平均值的原型提取方法也與文獻(xiàn)[54]的方法相結(jié)合,被RRE的應(yīng)用驗(yàn)證了效果[55,60],主觀聽力測(cè)試證實(shí)了該方法獲得的良好結(jié)果。Primavera等[61]通過(guò)考慮群延遲均衡進(jìn)一步提升了這種方法的效果。

近年來(lái),便攜式設(shè)備的使用量大幅度增加,達(dá)到了非常高的規(guī)模。然而,由于揚(yáng)聲器的特性及其與房間環(huán)境的相互作用,許多這些設(shè)備僅僅能夠滿足基本的音頻要求。通過(guò)考慮這些設(shè)備的聲學(xué)特性并通過(guò)信號(hào)處理技術(shù),可以部分地改善這種情況。Cecchi等[62]通過(guò)引入多點(diǎn)均衡方法來(lái)改善手機(jī)等便攜式設(shè)備上揚(yáng)聲器的非理想響應(yīng),客觀測(cè)試和主觀聽力測(cè)試結(jié)果證實(shí)了該算法對(duì)個(gè)人便攜設(shè)備上的混響均衡具有一定效果。同年,Czyzewski等[63]提出了用于在平板電腦上進(jìn)行混響均衡的頻率響應(yīng)線性化的靜態(tài)和自適應(yīng)算法,主觀聽力測(cè)試結(jié)果表明了該方法能夠改善聽音者的感知評(píng)價(jià)。

Lecomte等[64]提出的混響均衡算法中,通過(guò)SVD將待求逆矩陣中奇異值小于閾值的去掉,從而降低條件數(shù)的大小,避免在較低頻率時(shí)導(dǎo)致過(guò)大的揚(yáng)聲器響應(yīng)而造成損傷。同年,Cecchi等[65]綜述了在混響均衡領(lǐng)域存在的大量問(wèn)題,并指出這些問(wèn)題主要是由于房間脈沖響應(yīng)的可逆性不穩(wěn)定造成的,而可逆性不穩(wěn)定問(wèn)題依然是當(dāng)前房間混響均衡相關(guān)技術(shù)中的重難點(diǎn)問(wèn)題。

3 3D聲場(chǎng)重建技術(shù)展望

3D聲場(chǎng)重建技術(shù)通過(guò)信號(hào)處理的技術(shù)控制揚(yáng)聲器陣列的驅(qū)動(dòng)信號(hào)進(jìn)行回放,讓身處陣列中的聽音者感受到沉浸式的3D聽覺體驗(yàn)。近些年,關(guān)于3D聲場(chǎng)重建的技術(shù)不斷發(fā)展,但在揚(yáng)聲器陣列不規(guī)則或數(shù)目較少情況下的算法性能和應(yīng)用場(chǎng)景的拓展等方面仍有一些問(wèn)題有待進(jìn)一步深入研究。

(1)3D聲場(chǎng)的表達(dá)問(wèn)題

為了對(duì)連續(xù)空間中的聲場(chǎng)進(jìn)行重建,需要對(duì)連續(xù)空間中的聲場(chǎng)進(jìn)行表達(dá)以后,針對(duì)表達(dá)的3D聲場(chǎng)特征(例如球諧系數(shù))進(jìn)行重建,從而實(shí)現(xiàn)連續(xù)空間內(nèi)的3D聲場(chǎng)重建。雖然球諧表達(dá)理論給出了很好的聲場(chǎng)表達(dá)式,然而實(shí)際應(yīng)用中,截?cái)嘁院蟮那蛑C系數(shù)的重建誤差最小并不一定得到最小的聲場(chǎng)重建誤差[16]。由于不同階球諧系數(shù)對(duì)不同聲場(chǎng)的重建誤差的影響程度不同,因聲場(chǎng)而異,較為復(fù)雜,難以有效分析,導(dǎo)致基于截?cái)嗲蛑C系數(shù)逼近的聲場(chǎng)方法存在進(jìn)一步降低誤差的空間。近年來(lái)有研究人員探索通過(guò)機(jī)器學(xué)習(xí)的方法來(lái)尋求更低的聲場(chǎng)重建誤差。通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)對(duì)聲場(chǎng)進(jìn)行表達(dá),有機(jī)會(huì)進(jìn)一步降低誤差以及突破維度定理的限制,從而減少所需揚(yáng)聲器數(shù)目。

(2)感知相關(guān)聲場(chǎng)物理量的重建問(wèn)題

傳統(tǒng)3D聲場(chǎng)重建技術(shù)都是對(duì)原始物理環(huán)境進(jìn)行重建,是面向物理實(shí)驗(yàn)設(shè)計(jì)的。在重建沉浸式聽覺體驗(yàn)的時(shí)候,精確的物理重建是一種途徑,也可以在此基礎(chǔ)上考慮與感知有關(guān)的物理量的重建,通過(guò)加權(quán)等方式綜合考慮對(duì)主觀聽音感受的影響程度[15,44-45],在揚(yáng)聲器排布不夠規(guī)則或者數(shù)目較少的條件下盡可能地提高聽音者的3D音頻體驗(yàn),這是未來(lái)研究的一個(gè)重要方向。

(3)個(gè)人音頻系統(tǒng)

隨著聲場(chǎng)重建的技術(shù)不斷發(fā)展,通過(guò)大量揚(yáng)聲器已經(jīng)能夠在一定范圍內(nèi)進(jìn)行具有較好主觀聽音感受的聲場(chǎng)重建[66]。近年,一個(gè)稱為個(gè)人音頻系統(tǒng)(Personal sound zone)的應(yīng)用場(chǎng)景逐漸引起大家的關(guān)注。該場(chǎng)景通過(guò)在多個(gè)區(qū)域中同時(shí)控制聲場(chǎng),使得不同區(qū)域之間互不干擾,形成所謂的亮區(qū)和暗區(qū)。與當(dāng)前的主動(dòng)降噪耳機(jī)應(yīng)用場(chǎng)景有類似之處,但該技術(shù)能夠不佩戴耳機(jī)即可享受獨(dú)自的空間。該技術(shù)的實(shí)現(xiàn)還需要面對(duì)環(huán)境混響的影響、聽音者走動(dòng)、亮區(qū)和暗區(qū)在面朝方向上的相互遮擋等問(wèn)題,這也是未來(lái)的重要研究方向之一。

(4)高階揚(yáng)聲器

混響環(huán)境會(huì)對(duì)聲場(chǎng)重建效果產(chǎn)生影響,同時(shí)重建效果也會(huì)因?yàn)榄h(huán)境的變化產(chǎn)生明顯的影響,其中一個(gè)原因是揚(yáng)聲器產(chǎn)生的散射聲波受到環(huán)境反射以后再次到達(dá)聽音位置處。為了降低環(huán)境混響對(duì)聲場(chǎng)重建的效果,有許多研究提出了新型的揚(yáng)聲器,即所謂的高階揚(yáng)聲器(Higher order source,HOS)[67]。在高階揚(yáng)聲器上可以有多個(gè)揚(yáng)聲器,并且可以有用于均衡的麥克風(fēng)。其設(shè)計(jì)的目標(biāo)是:一方面通過(guò)設(shè)計(jì)不同方向的聲波模式來(lái)減少目標(biāo)方向以外的聲波,降低混響的影響;另一方面,高階揚(yáng)聲器上具有多個(gè)揚(yáng)聲器,具有復(fù)雜的輻射模式,有機(jī)會(huì)替代大量的單一模式揚(yáng)聲器,從而可以實(shí)現(xiàn)揚(yáng)聲器數(shù)目的減少。

(5)基于移動(dòng)麥克風(fēng)的房間混響均衡

傳統(tǒng)混響均衡算法需要在多個(gè)位置處測(cè)量房間脈沖響應(yīng),耗費(fèi)大量的人力和時(shí)間成本。現(xiàn)在的研究中有一種基于移動(dòng)麥克風(fēng)的房間脈沖響應(yīng)測(cè)量方法[68-69],通過(guò)特定路線和速度移動(dòng)的麥克風(fēng)陣列高效地采集房間信息,能夠明顯提升混響條件下3D聲場(chǎng)技術(shù)在實(shí)際應(yīng)用中的性能。

4 結(jié)束語(yǔ)

3D聲場(chǎng)重建技術(shù)在虛擬現(xiàn)實(shí)和娛樂(lè)影音等領(lǐng)域有著廣泛的應(yīng)用前景,是近年來(lái)音頻信號(hào)處理領(lǐng)域中重要的研究之一。盡管國(guó)內(nèi)對(duì)3D聲場(chǎng)重建技術(shù)的研究起步較晚,但國(guó)內(nèi)一些科研機(jī)構(gòu)也取得了許多研究成果。隨著相關(guān)技術(shù)的不斷發(fā)展,相信會(huì)有越來(lái)越多的問(wèn)題被突破,并被應(yīng)用到實(shí)際場(chǎng)景中。

猜你喜歡
混響聽音聲壓
聽音識(shí)人
壓電三迭片式高階聲壓梯度水聽器研究
聲全息聲壓場(chǎng)插值重構(gòu)方法研究
平遠(yuǎn)雨夜
家庭聽音室的房間響應(yīng)橫向比較及改善建議
壓電晶體在縱波聲場(chǎng)中三維模型的建立與研究
淺談在混音中混響插件的組合使用
由“聽音為字”看“戲”“?”“丫麻”
車輛結(jié)構(gòu)噪聲傳遞特性及其峰值噪聲成因的分析
海洋混響特性分析與建模仿真研究?
都匀市| 石景山区| 封丘县| 南召县| 讷河市| 阿勒泰市| 庄浪县| 雷山县| 临清市| 五峰| 濮阳市| 勐海县| 天津市| 虹口区| 威信县| 定襄县| 安达市| 永州市| 达孜县| 天峻县| 农安县| 抚松县| 鄂尔多斯市| 云霄县| 鸡东县| 海盐县| 武川县| 鞍山市| 葵青区| 陆丰市| 兴安盟| 略阳县| 东至县| 巴青县| 靖宇县| 类乌齐县| 舒城县| 龙南县| 岳阳县| 遂平县| 黑水县|