徐子凡
(北京電影學(xué)院聲音學(xué)院,北京 100088)
上世紀(jì)七十年代,在對(duì)環(huán)繞聲系統(tǒng)的研究浪潮中,Gerzon等人開發(fā)了利用球諧函數(shù)記錄三維聲場(chǎng)的Ambisonics技術(shù),并設(shè)計(jì)了相關(guān)的錄音、傳輸和還放設(shè)備,以期能夠?qū)mbisonics應(yīng)用到環(huán)繞聲格式廣播電視節(jié)目的制作中。但是,在5.1系統(tǒng)成為占據(jù)絕對(duì)主導(dǎo)地位的環(huán)繞聲格式后,Ambisonics便淡出了商業(yè)市場(chǎng)的視野,在很長(zhǎng)一段時(shí)間里只有少數(shù)從事理論研究的工程師對(duì)這一領(lǐng)域進(jìn)行了研究,取得的進(jìn)展也較為有限,直到虛擬現(xiàn)實(shí) (Virtual Reality,VR)技術(shù)的發(fā)展與成熟打破了這種狀況。VR 技術(shù)所提供的三維視覺空間吸引了許多電影、游戲等領(lǐng)域的藝術(shù)家利用這種全新的畫面形式進(jìn)行創(chuàng)作,而為電影銀幕等“畫框”設(shè)計(jì)的5.1環(huán)繞聲系統(tǒng)不再能與靈活度空前巨大的VR 畫面相匹配。于是創(chuàng)作者和工程師們?cè)俣葘⒛抗馔断蛄薃mbisonics技術(shù),因?yàn)樗畲蟮奶攸c(diǎn)正是能夠無差別地編碼空間中所有方向上的聲音,并且能夠輕松對(duì)整個(gè)聲場(chǎng)進(jìn)行三維旋轉(zhuǎn)而不使信號(hào)失真,這與VR畫面的特點(diǎn)不謀而合。另外,Ambisonic信號(hào)的編碼、中間運(yùn)算和解碼重放這三個(gè)過程在數(shù)學(xué)上互相獨(dú)立,使得Ambisonics具有能夠適應(yīng)多種不同的工作流程、多種重放場(chǎng)地的潛能,這也契合了在使用VR 頭顯時(shí)通常需要佩戴耳機(jī)聆聽聲場(chǎng)的需求。
然而,Ambisonics系統(tǒng)的一個(gè)關(guān)鍵難點(diǎn)在于其音質(zhì)極大地受制于編碼階數(shù)的高低,而提高編碼階數(shù)又使得需要的信號(hào)通道數(shù)量呈幾何式增長(zhǎng)。主觀聽覺測(cè)試表明,在低階編碼時(shí),Ambisonic信號(hào)會(huì)有較為明顯的染色、定位模糊、缺乏包圍感等問題;當(dāng)階數(shù)超過三階后,這些問題會(huì)得到較明顯的改觀,但是此時(shí)所需要的信號(hào)通道數(shù)也達(dá)到了至少16個(gè)通道。與此相比,杜比Atmos系統(tǒng)在消費(fèi)領(lǐng)域采取的5.1 with JOC (Joint Object Coding)編碼格式能夠在少量增加傳統(tǒng)5.1信號(hào)碼率的基礎(chǔ)上實(shí)現(xiàn)對(duì)聲床以及16個(gè)對(duì)象的編碼,這種帶寬上的巨大劣勢(shì)使Ambisonics縱然有許多優(yōu)點(diǎn)但在應(yīng)用與消費(fèi)領(lǐng)域中前進(jìn)的腳步依然倍受限制。在這樣的背景下,參量化Ambisonics解碼技術(shù)應(yīng)運(yùn)而生。傳統(tǒng)的線性解碼算法作用在將Ambisonic諧波信號(hào)轉(zhuǎn)變?yōu)槲锢硪粝渖系男盘?hào)或是耳機(jī)信號(hào)的過程中,這類解碼器的設(shè)計(jì)根據(jù)是諧波信號(hào)的數(shù)學(xué)性質(zhì),而與被編碼的具體聲音信號(hào)的特性無關(guān),因此不會(huì)改變已編碼信號(hào)的特性;而參量化解碼算法則建立在對(duì)空間音頻信號(hào)特性的建模和分析上,在解碼過程中利用Ambisonic諧波信號(hào)提取對(duì)應(yīng)的特征參數(shù),并嘗試?yán)眠@些特征來一定程度上恢復(fù)在編碼時(shí)丟失的空間細(xì)節(jié),以達(dá)到超越編碼階數(shù)的解碼效果。利用這種方式便可通過低階編碼傳輸信號(hào),隨后在解碼端恢復(fù)一定的空間精度,以達(dá)到減少帶寬需求的效果。與杜比Atmos系統(tǒng)類似,由于使用了一些信號(hào)處理技巧來大幅壓縮原始信號(hào)所占據(jù)帶寬,處理器并不能保證最終的效果與原始母帶的一致性,創(chuàng)作者必須在對(duì)處理方式有足夠了解的情況下才能正確地使用這些算法,因此在下文中將介紹這些算法的核心思想與實(shí)現(xiàn)原理。
式(1)中g(shù)=[g,g,g,...,g]為各個(gè)音箱的增益大小。這個(gè)過程實(shí)際上是將各個(gè)諧波信號(hào)按一定系數(shù)線性疊加來計(jì)算音箱信號(hào),整個(gè)過程與信號(hào)具體內(nèi)容無關(guān),因此可以統(tǒng)稱為線性解碼。解碼矩陣D的計(jì)算則有多種不同方式,并且在實(shí)踐中通常會(huì)根據(jù)頻率段不同使用不同的解碼矩陣。有較大應(yīng)用價(jià)值的幾種算法有模式匹配解碼 (Mode Matching Decoding,MMD)、能量保持解碼(Energy Preserving Ambisonic Decoding,EPAD)以及全方向解碼 (All-Round Ambisonic Decoding,AllRAD)。這些算法有各自的優(yōu)缺點(diǎn),根據(jù)不同場(chǎng)合和需求可以選擇對(duì)應(yīng)的解碼算法。盡管求解解碼矩陣需要一定的計(jì)算量,然而對(duì)于一個(gè)特定的重放設(shè)施,一旦解碼矩陣計(jì)算完畢,就可以通過一個(gè)簡(jiǎn)單的線性運(yùn)算來還原記錄下來的聲場(chǎng)。
線性解碼雖然過程簡(jiǎn)單,但極大受限于信號(hào)階數(shù)。在階數(shù)較低(小于三階)時(shí),諧波信號(hào)的空間精度較差,此時(shí)回放的信號(hào)定位能力較差,且在信號(hào)為混響聲場(chǎng)時(shí)難以復(fù)現(xiàn)原聲場(chǎng)的空間感。這主要是由于在一個(gè)擴(kuò)散聲場(chǎng)中各個(gè)方向上傳來的不相干的聲音信號(hào)在低精度的空間編碼分辨率下變得相關(guān)度(Correlation)較高,從而喪失了擴(kuò)散聲場(chǎng)應(yīng)有的聽覺特性。雖然將編碼階數(shù)提高能夠大大改善這個(gè)問題,但是隨之而來的是呈幾何規(guī)律增長(zhǎng)的聲道數(shù)量,這在實(shí)際應(yīng)用中是難以接受的。而下文將要介紹的參量化解碼,正是為了在較低編碼階數(shù)的情況下以更高分辨率重建聲場(chǎng)應(yīng)有的特性而設(shè)計(jì)的。
為了從編碼的聲場(chǎng)中重建高分辨率的揚(yáng)聲器(或雙耳立體聲)信號(hào),解碼過程就需要提取被編碼聲場(chǎng)的空間特性,進(jìn)而利用這些特性進(jìn)行后續(xù)聲場(chǎng)重建。這就需要提前選擇一些對(duì)于聽者感知聲場(chǎng)來說最為重要的特征作為被提取的參數(shù)。大部分的參量解碼算法都對(duì)被編碼聲場(chǎng)做了如下的假設(shè):聲場(chǎng)中存在一個(gè)或多個(gè)主要聲源,例如聲場(chǎng)中的直達(dá)聲以及具有較大能量的初次反射聲;除了較為明確的主要聲源外,剩余的能量則組成了擴(kuò)散聲場(chǎng),這部分能量在各個(gè)方向上呈現(xiàn)高度不相關(guān)的特點(diǎn)。在這個(gè)假設(shè)下,解碼算法會(huì)嘗試識(shí)別出主要聲源的波達(dá)方向(Direction of Arrival,Do A),并將這些聲源從整個(gè)信號(hào)中分離出來,形成直達(dá)信號(hào)流 (Direct Stream)以及擴(kuò)散信號(hào)流(Diffuse Stream)這兩部分信號(hào)流。隨后,在聲場(chǎng)重建的過程中根據(jù)Do A 信息直接合成直達(dá)信號(hào)部分,而擴(kuò)散聲場(chǎng)部分則會(huì)通過一定的去相關(guān)(Decorrelation)處理后再被還原。
盡管大多數(shù)算法都是基于上述的基本假設(shè),然而要準(zhǔn)確地識(shí)別并分離直達(dá)聲源和擴(kuò)散聲場(chǎng)并不是一個(gè)簡(jiǎn)單的工作,且這樣的信號(hào)處理也極易在最終結(jié)果中引入可聞瑕疵。在早期的研究中,算法僅能從一階Ambisonic信號(hào)中識(shí)別出一個(gè)主要聲源,并假設(shè)剩下的擴(kuò)散聲場(chǎng)是各向同性的 (Isotropic)。這些算法僅能在聲場(chǎng)較為簡(jiǎn)單的情況下才能比較好地還原原聲場(chǎng),并不能在更加復(fù)雜的場(chǎng)景中運(yùn)用。隨著數(shù)字技術(shù)的快速發(fā)展,在實(shí)際情景中傳輸并處理二階甚至三階信號(hào)成為可能,因此在后續(xù)研究中參量化解碼通過將高于一階的Ambisonic信號(hào)作為輸入,實(shí)現(xiàn)了從信號(hào)中識(shí)別出多個(gè)聲源以及一個(gè)各向異性的擴(kuò)散聲場(chǎng)的效果。下文將介紹兩種高階參量化解碼算法。
HO-Dir AC是在其一階版本Dir AC的基礎(chǔ)上改進(jìn)的,這里首先介紹Dir AC 的工作原理。Dir AC使用一階Ambisonic信號(hào),即B-format信號(hào)來進(jìn)行聲場(chǎng)分析。在進(jìn)行分析前,算法先將信號(hào)通過一組濾波器分成多個(gè)時(shí)間窗口和多個(gè)頻段,例如64段或128段分頻,使得每個(gè)頻段的帶寬近似于人耳能分辨的最小帶寬。隨后每個(gè)時(shí)間窗內(nèi)的頻段都將被單獨(dú)分析。在B-format中,全指向的W 信號(hào)代表了原點(diǎn)上總體聲壓值,而通過X、Y 和Z信號(hào)可以計(jì)算出原點(diǎn)上質(zhì)點(diǎn)振動(dòng)速度向量u:
式(2)中c為聲速,ρ為空氣密度。通過總聲壓p以及振速u,可以計(jì)算出以下幾個(gè)聲場(chǎng)特征:
式(3)中R[]代表取實(shí)部操作,上標(biāo)H 代表共軛轉(zhuǎn)置,i為原點(diǎn)處有功聲強(qiáng)向量,所指向的相反方向即為直達(dá)聲源波達(dá)方向Do A,E 為原點(diǎn)處能量密度,ψ 為直達(dá)信號(hào)與擴(kuò)散信號(hào)的比例。當(dāng)ψ取1時(shí),代表聲場(chǎng)完全擴(kuò)散,取0時(shí)則代表聲場(chǎng)中只有一列平面波。這時(shí),利用B-format信號(hào)合成一指向入射方向的“虛擬話筒”,并根據(jù)ψ 值提取虛擬話筒所拾取的直達(dá)聲源信號(hào),W 作為整體聲壓則被看為擴(kuò)散聲場(chǎng)信號(hào)。直達(dá)部分隨后利用基于向量的幅值聲像器 (Vector-Based Amplitude Panning,VBAP)直接在揚(yáng)聲器上進(jìn)行還放,而擴(kuò)散信號(hào)則經(jīng)過解相關(guān)處理后在所有的揚(yáng)聲器上進(jìn)行還原。
隨后可以用類似一階版本的方式對(duì)區(qū)域內(nèi)的能量、聲源波達(dá)方向以及擴(kuò)散度進(jìn)行計(jì)算。通過這樣的區(qū)域分割,HO-Dir AC 實(shí)現(xiàn)了對(duì)多個(gè)直達(dá)聲源的識(shí)別并一定程度上保留了擴(kuò)散聲場(chǎng)的在各個(gè)方向上的不均勻性。
在合成階段,不同于一階版本中使用的“虛擬麥克風(fēng)”,HO-Dir AC 采用了一種較為復(fù)雜方式來更自然地合成聲場(chǎng)。通過之前分析步驟中計(jì)算出的各個(gè)區(qū)域內(nèi)特征參數(shù)u、E和ψ,可以構(gòu)造出一個(gè)理想的最終揚(yáng)聲器信號(hào)之間的協(xié)方差矩陣 (Covariance Matrix)C,其定義為:
另外,算法的開發(fā)者考慮到如果被處理的Ambisonic信號(hào)是由實(shí)際麥克風(fēng)陣列 (如Eigen Mike)捕捉再被編碼而成的情況下,存在一個(gè)空間混疊極限頻率,超過這個(gè)頻率的聲音信號(hào)的空間特性不再能被麥克風(fēng)陣列正確捕捉。此時(shí)一個(gè)特殊的高頻分析算法被用于計(jì)算聲場(chǎng)特性參數(shù),有關(guān)的內(nèi)容本文限于篇幅不進(jìn)行介紹,有興趣的讀者可以自行查閱原文獻(xiàn)。
COMPASS算法在目標(biāo)上與HO-Dir AC 類似,都可以從高階Ambisonic信號(hào)中識(shí)別多個(gè)聲源,然而它不再像HO-Dir AC那樣對(duì)聲場(chǎng)進(jìn)行空間分割,而是基于近年來在信號(hào)處理領(lǐng)域非常重要的陣列信號(hào)處理、波束形成等理論設(shè)計(jì)的,因此比HO-Dir AC 具有更廣泛的適應(yīng)性。COMPASS算法也假設(shè)被編碼的Ambisonic信號(hào)中包含了直達(dá)聲源部分和一個(gè)各向異性的環(huán)境聲部分,但是不同點(diǎn)在于環(huán)境聲部分包括了沒有明確方向性的環(huán)境背景聲音、一些分散在各個(gè)方向上的具有不相干信號(hào)的雜散聲源,以及晚期混響能量,而非一個(gè)簡(jiǎn)單的擴(kuò)散聲場(chǎng)。另外,COMPASS在時(shí)間窗與頻率段之間也加入了可以調(diào)節(jié)的平滑處理,因此使用時(shí)可以根據(jù)信號(hào)特點(diǎn)做出一定的調(diào)整。下面對(duì)COMPASS的核心理念進(jìn)行簡(jiǎn)單介紹。
在陣列信號(hào)處理中,信號(hào)的空間特征信息與陣列信號(hào)協(xié)方差矩陣的特征值分解 (Eigenvalue Decomposition)緊密相關(guān),這被稱為子空間理論(Subspace Principle),COMPASS就是根據(jù)這一理論來探測(cè)聲源的方向以及能量。對(duì)于某一時(shí)間窗、某一頻段的Ambisonic信號(hào)a(t,f),可以假設(shè)這是由直達(dá)聲源部分a(t,f)以及環(huán)境聲部分a(t,f)疊加而成的。若假設(shè)兩部分信號(hào)之間完全不相關(guān),則整體信號(hào)的協(xié)方差矩陣也是由兩個(gè)部分各自的協(xié)方差矩陣疊加而成:
式(10)中E· []為統(tǒng)計(jì)期望值。對(duì)于有M個(gè)諧波信號(hào)的Ambisonics系統(tǒng)來說,對(duì)其協(xié)方差矩陣進(jìn)行特征值分解后將得到M 個(gè)從大到小排列的特征值λ以及M 個(gè)特征向量v:
式(11)中,前K 個(gè)較大的特征值對(duì)應(yīng)的是K個(gè)直達(dá)信號(hào)的子空間,而后M-K 個(gè)較小的特征值則對(duì)應(yīng)了環(huán)境信號(hào)的子空間。對(duì)于直達(dá)聲源數(shù)量K的判斷,COMPASS使用了特征值二階統(tǒng)計(jì)量方法(Second Order Statistic of Eigenvalues,SORTE),這一方法通過對(duì)相鄰特征值的差值進(jìn)行統(tǒng)計(jì)學(xué)分析來劃分對(duì)應(yīng)聲源的特征值,從而避免了使用人為設(shè)定的閾值。下一步是確定直達(dá)聲源的波達(dá)方向Do A,這里使用的是子空間理論中的經(jīng)典方法,多聲源分類算法(Multiple Signal Classification,MUSIC)。其大致原理是構(gòu)造一個(gè)覆蓋整個(gè)球面的密集的方向向量集=[γ,γ,...,γ]以及其在諧波域相應(yīng)的采樣Y=[y(γ),y(γ),...,y(γ)],以及由M-K 個(gè)最小特征值對(duì)應(yīng)的特征向量構(gòu)成的環(huán)境聲子空間V。在該子空間內(nèi),每個(gè)方向上的能量為:
由于這是環(huán)境聲子空間,因此取得K 個(gè)最小值的方向即為直達(dá)信號(hào)的入射方向。于是,只需構(gòu)造出指向這K 個(gè)方向的波束即可從Ambisonic信號(hào)中提取出直達(dá)信號(hào),再?gòu)脑盘?hào)中去除這些信號(hào) (或者說構(gòu)造指向環(huán)境聲的波束)就得到了環(huán)境聲部分。最后在重建聲場(chǎng)時(shí),雖然可以通過直接將直達(dá)信號(hào)利用VBAP等方法送到對(duì)應(yīng)的空間位置上,但是為了減少瑕疵的產(chǎn)生,通常采取將線性解碼結(jié)果與直接VBAP的結(jié)果之差最小化的方法來實(shí)現(xiàn)更加平滑的重建效果。環(huán)境聲部分則可以直接通過線性解碼重建,或是在需要加強(qiáng)擴(kuò)散聽感的情況下,對(duì)線性解碼后每路揚(yáng)聲器信號(hào)進(jìn)行一定的去相關(guān)處理。上述過程便完成了從聲源識(shí)別到聲場(chǎng)重建的全過程。
如文章開頭所述,參量化解碼算法的初衷是為了提升低階編碼的Ambisonic信號(hào)的回放質(zhì)量以達(dá)到減少帶寬需求的目的而設(shè)計(jì)的,但是這一功能必須建立在對(duì)整個(gè)Ambisonics系統(tǒng)的信號(hào)格式、編解碼算法的統(tǒng)一上。由于Ambisonics本身是一種開放的音頻技術(shù),真正統(tǒng)一的標(biāo)準(zhǔn)尚未確立,因此在研究的過程中參量化解碼的功能定位就逐步由原先的信號(hào)還放后處理算法轉(zhuǎn)移到在制作過程中為Ambisonic信號(hào)提供更多處理的可能性上。目前,阿爾托大學(xué) (Aalto University)的研究人員根據(jù)HODir AC算法和COMPASS 算法理論編寫了相應(yīng)的VST 插件,包括在一套完整的高階Ambisonics處理插件包SPARTA (Spatial Audio Real-Time Applications)中,而這套插件中所提供給創(chuàng)作者的功能也超出了僅僅提高低階信號(hào)空間分辨率的范疇。
在電影制作中,環(huán)境聲素材的錄制一直都是一個(gè)重要的環(huán)節(jié),由于近年來沉浸聲概念的快速發(fā)展,5.1等環(huán)繞聲格式已經(jīng)成為數(shù)字電影的基本要求,而許多商業(yè)電影都在向沉浸聲格式上發(fā)展,這使得越來越多的錄音師開始探索Ambisonic錄音的可能性。盡管獲取環(huán)繞聲格式的聲音素材有多種方式,但是這些錄音方法需要的器材比較復(fù)雜,并且錄音時(shí)就已經(jīng)將聽眾的朝向固定下來,在使用時(shí)不免帶來一定的局限性。而Ambisonics錄音既能夠捕捉完整的空間聲場(chǎng),又可以在后期方便地解碼為立體聲、5.1乃至7.1.4等電影常用的通道制式,這就極大地方便了素材的采集工作,尤其是對(duì)于制作時(shí)間緊張的項(xiàng)目或是個(gè)人工作者來說更是一種非常便捷的選擇。而對(duì)于VR 電影來說,在需要真正沉浸式的聲音素材時(shí),Ambisonic錄音就是唯一的選擇。然而,受限于Ambisonics理論的復(fù)雜性,Ambisonic錄音的獲取,尤其是高階Ambisonic錄音的獲取是十分復(fù)雜的,不僅需要諸如Eigen Mike等特殊的錄音設(shè)備,在編碼過程中也需要對(duì)一些參數(shù)進(jìn)行調(diào)整才能獲得可靠的結(jié)果。相反,一階Ambisonics信號(hào)可以輕松地使用基于A-format格式設(shè)計(jì)的話筒獲取,其體積較為便攜,且可以提供相當(dāng)良好的音質(zhì),因此目前運(yùn)用最為廣泛的就是一階Ambisonic話筒。
然而,由于Ambisonics是強(qiáng)度差錄音技術(shù),一階話筒受限于較低的空間分辨率無法提供AB 式或ORTF這樣的錄音技術(shù)所具有的寬闊聽感,同時(shí)也難以直接融合到高階Ambisonics制作流程中。此時(shí)就可以通過參量化解碼算法將一階錄音經(jīng)處理后再解碼到目標(biāo)聲道格式上,或是在提升了空間精度后重新用高階諧波對(duì)信號(hào)進(jìn)行編碼,從而獲得更高質(zhì)量的聽感。同時(shí),為了適應(yīng)目前VR 視頻制作等項(xiàng)目中普遍使用耳機(jī)進(jìn)行雙耳 (Binaural)回放的情形,本文介紹的兩個(gè)算法都針對(duì)雙耳立體聲回放推出了專門優(yōu)化的算法及插件,降低了處理延遲并增加了對(duì)頭部運(yùn)動(dòng)的追蹤功能。本文作者對(duì)雙耳回放插件的效果進(jìn)行了簡(jiǎn)單試聽,材料包括使用Calrec Soundfield Mk IV麥克風(fēng)錄制的交響樂、室內(nèi)樂等音樂以及使用Soundfield ST250 錄制的一些環(huán)境、音效。結(jié)果發(fā)現(xiàn)在音樂材料的回放上,相比于直接進(jìn)行雙耳解碼,通過參量化處理的錄音的音色更加均衡,同時(shí)錄制環(huán)境的混響也更加豐滿,空間感有非常顯著的提升。在聲源定位上,雖然使用一階信號(hào)作為輸入時(shí),理論上不能同時(shí)追蹤多個(gè)聲源,但在分頻處理的幫助下,實(shí)際變化很明顯,區(qū)別主要在于各個(gè)聲源的分離感有較大增強(qiáng),定位變得更加尖銳,當(dāng)然這個(gè)變化是否等同于音質(zhì)的提升則要看具體情況。在環(huán)境音的解碼測(cè)試中,由于聲場(chǎng)中缺乏明顯占主導(dǎo)地位的聲源,在完全參量化解碼的情形下還是產(chǎn)生了處理的痕跡,推測(cè)這應(yīng)該是由于過強(qiáng)的解相關(guān)處理造成的。通過調(diào)整解相關(guān)強(qiáng)度以及參量化解碼和線性解碼信號(hào)之間的比例,就可以將瑕疵減小到基本不可聞的水平。聽感上的變化則沒有音樂錄音那么巨大,但是在煙花表演等空間感較強(qiáng)的場(chǎng)景中,還是能感受到周圍回聲帶來的包圍感有所增強(qiáng)。通過對(duì)聲場(chǎng)能量的可視化可以看出,原本集中在某個(gè)方向上的能量被分散到了整個(gè)聲場(chǎng)中,這也印證了包圍感增強(qiáng)的聽感。總體來說,參量化解碼對(duì)一階Ambisonics錄音的空間質(zhì)量提升是非常顯著的。
將單聲道或立體聲錄音中的聲源分離,或是去除錄音中包含的混響場(chǎng)是一件非常困難的工作,傳統(tǒng)算法對(duì)混響的識(shí)別和抑制能力比較有限且當(dāng)混響很強(qiáng)時(shí)容易產(chǎn)生處理瑕疵,近幾年在音頻領(lǐng)域興起的神經(jīng)網(wǎng)絡(luò)類算法則需要很大的計(jì)算開銷,因此還沒有成為主流算法。而對(duì)于Ambisonic錄音來說,由于錄音中包含了聲場(chǎng)的完整空間信息,對(duì)這種空間信息加以利用就可以實(shí)現(xiàn)對(duì)不同聲音元素的辨別與分離。參量化解碼正是在這種機(jī)制下工作的,因此稍作改動(dòng),就可以用于聲源的分離重組這樣的工作。例如,如果我們對(duì)錄音中混響成分的比例不滿意,那么在進(jìn)行參量化解碼時(shí)只需調(diào)整擴(kuò)散信號(hào)流與直達(dá)信號(hào)流的比例,就可以更改混響量的大小,獲得更干的錄音,或是加大空間距離感。由于這種調(diào)整是建立在對(duì)整個(gè)空間信息的理解上實(shí)現(xiàn)的,產(chǎn)生的聽感變化相較傳統(tǒng)算法實(shí)現(xiàn)的去混響效果聽起來更加自然。
對(duì)于聲源分離的問題,神經(jīng)網(wǎng)絡(luò)算法目前更多是用在分離音樂中特定的樂器,并不能直接分離未知特征的聲源,這就帶來了比較大局限性。而由于COMPASS算法是建立在波束形成技術(shù)上的,因此具有利用波束分離各個(gè)聲源的潛力。在SPARTA套件中Tracker插件就實(shí)現(xiàn)了對(duì)靜態(tài)或者移動(dòng)聲源的實(shí)時(shí)跟蹤,并將追蹤到的聲源從整體聲場(chǎng)中分離出來的功能。而另一個(gè)插件Spat Edit則更進(jìn)一步,允許用戶在將聲源分離出來之后分別對(duì)單聲道的聲源和剩余的Ambisonic環(huán)境聲場(chǎng)分別進(jìn)行任意的效果處理,隨后再將兩者利用COMPASS算法重新合并。這種分離空間元素的能力使得創(chuàng)作者在面對(duì)Ambisonic素材時(shí)擁有了巨大的處理空間,甚至可以利用Ambisonic錄音完成一些傳統(tǒng)錄音技術(shù)無法做到的工作。例如在目前電影聲音領(lǐng)域非常流行的聲景 (Soundscape)采集工作中,Ambisonic錄音已經(jīng)有較多的應(yīng)用,但是錄制下來的素材是一個(gè)無法分割的整體,如果對(duì)其中個(gè)別元素的響度、動(dòng)態(tài)等特性不滿意,或是想要將錄音中一個(gè)極具特點(diǎn)的聲源單獨(dú)作為一個(gè)素材,傳統(tǒng)的處理方法是束手無策的。而通過COMPASS的分離聲源算法,創(chuàng)作者就能將聲場(chǎng)拆散,對(duì)感興趣的元素進(jìn)行分離、調(diào)整、再重組,充分利用Ambisonics技術(shù)的空間記錄能力為創(chuàng)作需求服務(wù)。
參量化Ambisonics解碼算法起源于對(duì)降低信號(hào)傳輸帶寬的需求,但是在Ambisonics格式尚未成為沉浸式音頻解決方案標(biāo)準(zhǔn)的今天,對(duì)這項(xiàng)技術(shù)的應(yīng)用側(cè)重于為音頻制作階段提供更多靈活的選擇。隨著虛擬現(xiàn)實(shí)技術(shù)與增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展與成熟,參量化Ambisonics解碼技術(shù)為Ambisonics音頻格式在或?qū)⑴d起的VR 電影中的應(yīng)用提供了音質(zhì)上的保證;而在當(dāng)下仍占主流的傳統(tǒng)電影電視制作領(lǐng)域,參量化Ambisonics解碼技術(shù)所帶來的高度靈活性也使得利用Ambisonics錄音獲取素材成為了一種具有獨(dú)特優(yōu)勢(shì)的方式。參量化解碼技術(shù)通過解決Ambisonics音頻空間質(zhì)量受編碼階數(shù)高低影響這個(gè)關(guān)鍵性問題,使得Ambisonics音頻技術(shù)獲得了更加廣泛的應(yīng)用價(jià)值。