高 杰
(南京藝術(shù)學(xué)院 傳媒學(xué)院,江蘇 南京 210000)
“沉浸”一詞最早應(yīng)用于視覺(jué)藝術(shù),指利用人的感官體驗(yàn)和認(rèn)知體驗(yàn),營(yíng)造氛圍讓參與者身臨其境的體驗(yàn)狀態(tài)。在利用互聯(lián)媒體進(jìn)行娛樂(lè)的背景下,3D 沉浸式音頻通常是指為聽(tīng)者提供除寬度和深度外還具有高度信息的三維(3D)音頻體驗(yàn),聽(tīng)者依靠雙耳可以分辨出前、后、左、右、上等方位的音頻技術(shù),克服了傳統(tǒng)立體聲和環(huán)繞系統(tǒng)平面化的局限性。近年來(lái),國(guó)內(nèi)外已經(jīng)開(kāi)發(fā)出多種用于3D 音頻的音頻格式和錄制方式,如Dolby Atmos,Auro-3D,DTS:X,NHK 22.2 以及中國(guó)多維聲等等[1]。3D 音頻從最初應(yīng)用于影視作品,逐步拓展到音樂(lè)、游戲及互聯(lián)網(wǎng)視頻等新領(lǐng)域,應(yīng)用的領(lǐng)域和數(shù)量逐漸增加。2018 年,國(guó)際電信聯(lián)盟發(fā)布ITU-R BS.2051-2 標(biāo)準(zhǔn),推薦了用于音響系統(tǒng)的3D 揚(yáng)聲器配置。在揚(yáng)聲器設(shè)置方面,這些3D 音頻系統(tǒng)通常在原有水平環(huán)繞的基礎(chǔ)上增加了頂部揚(yáng)聲器。目前3D 音頻的實(shí)現(xiàn)方式主要有以下幾類:基于通道的音頻(Channel Based Audio,CBA),基于對(duì)象的音頻(Object Based Audio,OBA),基于場(chǎng)景的音頻(Scene Based Audio,SBA)或這些方式的組合。
CBA 是基于聲道的概念來(lái)實(shí)現(xiàn)3D 沉浸式音頻系統(tǒng),需要對(duì)系統(tǒng)中的每一只揚(yáng)聲器進(jìn)行固化,才能實(shí)現(xiàn)聲音的定位和移動(dòng)效果,傳統(tǒng)的5.1,7.1,NHK22.2,Auro-3D 以及中國(guó)多維聲都是采用此種方式。OBA 則拋開(kāi)的聲道的概念,基于聲音對(duì)象概念,系統(tǒng)會(huì)根據(jù)聲音的運(yùn)動(dòng)軌跡、位置等數(shù)據(jù),結(jié)合揚(yáng)聲器的數(shù)量進(jìn)行即時(shí)的運(yùn)算,然后把音頻流分配到系統(tǒng)中的每一只揚(yáng)聲器中。OBA 不再受揚(yáng)聲器的數(shù)量限制,但揚(yáng)聲器的數(shù)量越多,運(yùn)動(dòng)和位置將會(huì)更準(zhǔn)確。Dolby Atmos 與DTS:X 就是采用了這兩種方式的組合。
隨著嶄新的3D 沉浸式音頻格式的出現(xiàn),音頻內(nèi)容制作技術(shù)也在更新。在傳統(tǒng)聲學(xué)空間錄制音樂(lè)的背景下,麥克風(fēng)陣列技術(shù)對(duì)于呈現(xiàn)錄音師和制作人所需的聽(tīng)覺(jué)場(chǎng)景的空間特征至關(guān)重要。雖然OBA 可以在后期制作中靈活混合音頻信號(hào),但是在聲學(xué)環(huán)境中使用麥克風(fēng)陣列進(jìn)行CBA 記錄需要考慮各種因素,如傳聲器的間距角度、指向性以及擺放的位置等等。
21 世紀(jì)以來(lái),國(guó)內(nèi)外音頻工程師和錄音工程師已經(jīng)提出了許多用于CBA 的不同3D 傳聲器陣列錄制系統(tǒng)。其中一些系統(tǒng)是根據(jù)聽(tīng)覺(jué)感知的科學(xué)原理設(shè)計(jì)的,而另一些系統(tǒng)則是錄音師從錄音實(shí)踐中衍生出來(lái)的,例如著名的2L 唱片公司提出的“2L-Cube”,中國(guó)著名錄音師李大康老師提出的“LDK-Cube”等。由于一種技術(shù)不太可能同時(shí)滿足各種不同的錄制場(chǎng)景需求,因此對(duì)于錄音師和制作人而言,了解不同技術(shù)的設(shè)計(jì)原則,以便能夠選擇最適合的技術(shù)來(lái)實(shí)現(xiàn)藝術(shù)目標(biāo)至關(guān)重要。
本文旨在對(duì)常見(jiàn)的3D 傳聲器陣列進(jìn)行全面的綜述,并討論它們?cè)谖锢砗透兄系牟町悺髀暺麝嚵械姆秶鷥H限于室內(nèi)聲學(xué)環(huán)境以及室外環(huán)境聲錄制,與ITU-R BS.2051-2 標(biāo)準(zhǔn)中推薦的3D 揚(yáng)聲器配置兼容的陣列。
目前,3D 沉浸式錄音傳聲器陣列大致分為水平和垂直間隔(HVS)、水平間隔和垂直重合(HSVC)以及水平和垂直重合(HVC)陣列三種。HVS 陣列將水平和垂直的傳聲器間隔一定的距離,通過(guò)垂直和水平方向上產(chǎn)生的時(shí)間差進(jìn)行聲音的空間營(yíng)造。如果水平傳聲器間隔較寬,通道間電平和相位的差異性會(huì)更大,具有更強(qiáng)的空間信息。然而,國(guó)內(nèi)外研究表明,在3D 聲音再現(xiàn)時(shí),垂直和水平傳聲器之間的間距對(duì)感知空間信息的影響甚小。在此理論的基礎(chǔ)上,研究人員采用HSVC 概念設(shè)計(jì)了一些麥克風(fēng)陣列,高度傳聲器和水平傳聲器處在一個(gè)水平面,而水平布置的麥克風(fēng)間隔以增強(qiáng)空間信息。這一概念要求在中層和上層使用定向傳聲器(心形或超心形),以實(shí)現(xiàn)足夠的通道之間的隔離度。HVC 陣列在所有傳聲器之間沒(méi)有間距或間距很小,主要依賴通道間電平差進(jìn)行定向信號(hào)源成像。通常被以四面體布局排列的四個(gè)心形振膜組成(First Order Ambisonics,F(xiàn)OA),或者在一個(gè)小球體的表面安裝多個(gè)振膜,提供比FOA 更高的空間解析度。
傳聲器陣列也分為“主傳聲器”陣列和“環(huán)境”陣列。主傳聲器陣列傳統(tǒng)上指的是一組傳聲器,以一定的間距和角度布置,用于定向源成像和從記錄空間中特定位置的角度產(chǎn)生空間信息。在古典音樂(lè)錄制中,根據(jù)樂(lè)隊(duì)的大小以及所需的空間和音調(diào)特性,主陣列通常放置在地面上方約2~4 m,通常布置在指揮后方。在3D 主陣列傳聲器中,陣列的中間層負(fù)責(zé)前面的聲源成像和后面的環(huán)境成像。上層通常旨在捕捉環(huán)境以及增強(qiáng)感知的空間信息,除非聲源在物理上升高(如舞臺(tái)上方的合唱團(tuán))或垂直較大(如管風(fēng)琴),在這種情況下需要垂直聲源成像。有些錄音師傾向于依托一個(gè)主陣列,也有一些人傾向于增加多個(gè)傳聲器來(lái)補(bǔ)充主陣列。
環(huán)境陣列僅用于錄制漫射聲音(反射和混響),而不是直達(dá)聲,因此通常建議放置在錄制場(chǎng)所的混響半徑之外[2]。環(huán)境陣列可以與主陣列的正面中間層傳聲器配合使用。此方法的優(yōu)勢(shì)在于,由于環(huán)境陣列信號(hào)幾乎不包含直達(dá)聲,因此可能有更大空間來(lái)提升環(huán)境聲音而不影響主聲源的定位。
1.1.1 OCT-3D
OCT-3D 是由THEILE 和WITTEK 提出的4+5+0 陣列,使用OCT-SURROUND(優(yōu)化的心形三角形環(huán)繞)五聲道主傳聲器陣列作為中間層,并在其正上方1 m 處增加4 個(gè)朝上的超心形傳聲器,如圖1 所示。OCT 前方3 支傳聲器中兩側(cè)采用超心形傳聲器,抑制了前方3 支傳聲器的相關(guān)性,主要設(shè)計(jì)目標(biāo)是通過(guò)最小化通道間串?dāng)_來(lái)實(shí)現(xiàn)穩(wěn)定的正面成像,后方環(huán)繞和中間C 通道使用心形指向傳聲器。研究表明,環(huán)繞傳聲器陣列的相關(guān)性可能有助于增加感知到的聲源寬度,實(shí)際效果取決于聲源的類型。
圖1 OCT-3D 傳聲器陣列
OCT-3D 陣列共需要9 支傳聲器,其中心形指向3 支,超心形6 支。選擇上層超心形傳聲器是為了減少傳聲器之間的相關(guān)性。THEILE 和WITTEK認(rèn)為,由于使用ICTD或ICLD進(jìn)行垂直平移的限制,不可能在中上層之間實(shí)現(xiàn)穩(wěn)定的垂直方向的成像。所以THEILE 和WITTEK 建議,中上層揚(yáng)聲器拾取的應(yīng)該是反射和混響,而不是直達(dá)聲。對(duì)上層使用朝上的超心形傳聲器可以充分抑制直達(dá)聲,從而拾取的主要是彌散的反射聲和混響聲。
1.1.2 LDK-Cube
LDK-Cube 是李大康教授基于多年的環(huán)繞聲錄音實(shí)踐總結(jié)的一種由大間距主傳聲器和環(huán)境傳聲器組合而成的3D 傳聲器陣列[3]。該陣列使用八支傳聲器組成一個(gè)立方體,下層為4 支全指向傳聲器,上層為4 支心形指向傳聲器指向天花板,如圖2 所示。各傳聲器之間的間距建議在5 m 以上,對(duì)于傳聲器的選擇和擺放位置更加靈活。傳聲器之間的間距越大,彼此的相關(guān)性就越小,拾取到的空間信息也就越多[4]。
圖2 DK-Cube 傳聲器陣列
1.1.3 2L-Cube
2L-Cube 是LINDBERG 開(kāi)發(fā)的一種采用9 支全指向傳聲器排列在一個(gè)正方體上,可實(shí)現(xiàn)4+5+0的雙層傳聲器陣列,如圖3 所示。正方形的寬度和深度可以根據(jù)樂(lè)隊(duì)的大小從0.4 m 到1.2 m 變化,而高度維度保持1 m 不變。中置傳聲器放置在左右傳聲器之間的中間位置稍前方。將樂(lè)隊(duì)呈圓形布局,并將2L-Cube 放置在圓形的中心位置,以實(shí)現(xiàn)360°成像。LINDBERG 還傾向于調(diào)整個(gè)別樂(lè)手與傳聲器陣列的距離,以便為不同的音樂(lè)作品實(shí)現(xiàn)最佳水平平衡。2L 唱片公司使用此種陣列錄制并發(fā)行大量作品,效果非常不錯(cuò)。
圖3 2L-Cube 傳聲器陣列
2L-Cube 陣列使用9 支全指向形傳聲器。與單向或雙向傳聲器相比,全指向傳聲器通常會(huì)提供更好的低頻響應(yīng)。此外,上層麥克風(fēng)的精確垂直方向取決于所需的音調(diào)特性。該陣列經(jīng)常使用均衡器配件(圓球形狀)來(lái)增加高頻的指向性,在垂直方向產(chǎn)生一些ICLD,有助于避免聲像位置在垂直平面上向上移動(dòng)。
1.1.4 Hamasaki Cube
HAMASAKI 和VAN BAELEN 在Hamasaki Square(HS)錄音制式的基礎(chǔ)上,通過(guò)添加4 個(gè)向上的超心形傳聲器來(lái)捕捉上層的環(huán)境聲音,如圖4所示。HS 是一種成熟的技術(shù),用于錄制常規(guī)0+5+0再現(xiàn)的四聲道環(huán)境聲音。其由4 個(gè)側(cè)面的8 字形傳聲器組成,呈正方形排列。研究發(fā)現(xiàn),同時(shí)使用前后通道進(jìn)行環(huán)境聲記錄和再現(xiàn),與只使用后通道相比,可以產(chǎn)生更大的空間感。由于麥克風(fēng)朝向側(cè)面,零點(diǎn)朝向前方,HS 可以充分抑制來(lái)自舞臺(tái)的直達(dá)聲,同時(shí)拾取來(lái)自橫向的早期反射和混響聲。
圖4 Hamasaki Cube 傳聲器陣列
根據(jù)主觀評(píng)估結(jié)果和基于聲像定位估計(jì),建議HS 的大小為2~3 m,這表明在傳聲器間距為2 m的情況下,在100 Hz 以上可以實(shí)現(xiàn)完全的信道分離度。建議在增加的上層以及中層和上層之間使用相同的2~3 m 間距的超心形傳聲器。此外,還可以在上方正方形的中心額外放置一個(gè)朝上的超心形傳聲器。結(jié)果顯示,Hamasaki Cube 總體上比Hamasaki Square(HS)更好。
1.2.1 PCMA-3D
PCMA-3D 是HYUNKOOK L 提出的PCMA 設(shè)計(jì)概念[5]的4+5(7)+0 陣列,如圖5 所示。最初的PCMA 為五聲道環(huán)繞記錄中靈活呈現(xiàn)感知距離和水平而設(shè)計(jì)的。陣列中的每個(gè)點(diǎn)都采用以一致方式排列的前向和后向心形傳聲器。通過(guò)將兩個(gè)不同比例的傳聲器信號(hào)混合,可以創(chuàng)建不同方向和指向性的虛擬麥克風(fēng),從而可以靈活地控制每個(gè)通道信號(hào)的大小與混合比。
圖5 PCMA-3D 傳聲器陣列
國(guó)內(nèi)外研究結(jié)果表明,兩層傳聲器之間的間距將不會(huì)對(duì)3D聲音再現(xiàn)中的感知空間產(chǎn)生顯著影響,垂直通道間時(shí)間差對(duì)于垂直成像來(lái)說(shuō)是一個(gè)不穩(wěn)定的因素。這些發(fā)現(xiàn)也成為所有其他HSVC 陣列上層配置的理論基礎(chǔ)。也就是說(shuō),上層和下層傳聲器之間的間距并不會(huì)影響3D 聲音的成像。
布局圖表明,上層的4 個(gè)超心形傳聲器與其對(duì)應(yīng)的中間層傳聲器排列在同一水平面上。垂直方向放置的傳聲器比中間層傳聲器的電平至少低9.5 dB 左右,防止聲像定位向上移動(dòng)。中間層和上層的心形傳聲器也可以“背靠背”的方式布置,使得上層的心形傳聲器背離聲源,以獲得最大的聲道分離度。上層主要捕捉來(lái)自天花板的反射聲,而中間層捕捉來(lái)自前方的直達(dá)聲和來(lái)自后方的反射聲。這將在平衡高度通道中的環(huán)境級(jí)別方面提供靈活性,而不會(huì)影響主要在中層的聲像定位。這種重合布置的另一個(gè)好處是在后期制作中,3D 下混到立體聲時(shí)幾乎不會(huì)出現(xiàn)染色的現(xiàn)象。也就是說(shuō),當(dāng)高度傳聲器信號(hào)與其對(duì)應(yīng)的中層傳聲器信號(hào)混合時(shí),將不會(huì)產(chǎn)生相互抵消與相位失真。
1.2.2 ORTF-3D
ORTF-3D 是 由WITTEK 和THEILE 提出的4+4+0 陣列。ORTF 是一種成熟的雙通道錄音技術(shù),使用兩支間距為17 cm、角度為110°的心形傳聲器。SCHOEP 的ORTF-3D 就是使用了窄間距定向傳聲器的概念。在基于ORTF 的基礎(chǔ)上以垂直重合的方式排列的中層和上層各采用四支超心形傳聲器。麥克風(fēng)之間的排列緊湊。中上層傳聲器之間的夾角為90°,由于傳聲器都為強(qiáng)指向性,提供了足夠的通道分離度。另外,ORTF-3D 有室外布置和室內(nèi)布置兩個(gè)版本。室內(nèi)采用方形布局,每對(duì)垂直傳聲器之間的間距為18 cm,夾角為90°,如圖6 所示。而戶外為矩形布局,寬20 cm,深10 cm,如圖7所示。
圖6 ORTF-3D 傳聲器陣列室內(nèi)布置
圖7 ORTF-3D 傳聲器陣列室外布置
1.2.3 Au3Dio
Au3Dio是由VAIDA提出的4+6+0傳聲器陣列。中間層由6 支心形傳聲器組成,呈六邊形布局。根據(jù)SENGPIEL 的心理聲學(xué)模型的計(jì)算,建議每個(gè)相鄰傳聲器之間的間距為62 cm,以便為每個(gè)立體聲段產(chǎn)生60°的SRA。如圖8 所示,前面和后面的傳聲器都增加了向上的8 字形傳聲器,以垂直重合的方式排列。8 字形傳聲器可以直接分配到上層揚(yáng)聲器,在這種情況下,正面心形傳聲器應(yīng)該直接指向聲源,以最大限度地抑制上層信號(hào)中的直達(dá)聲。
圖8 Au3Dio 傳聲器陣列
心形和8 字形傳聲器可以配對(duì)成MS 制式,從而可以靈活地為中間層和上層分配信號(hào)。在這種情況下,需要將傳聲器陣列布置到聲源高度以上。
目前,市面上已有多種HVC 陣列的3D 傳聲器,大體呈四面體和球形陣列,如RODE NT-SF1(如圖9 所示),Sennheiser Ambeo VR(如圖10 所示)以及zoom-VR(如圖11 所示)。這些傳聲器可以理解為M/S 制式立體聲拾音的三維擴(kuò)展,采用一定的方式組合多個(gè)音頭形成的陣列來(lái)記錄具有高度、深度、寬度信息的多通道信號(hào),稱之為A-Format 信號(hào)格式,并通過(guò)這些通道信息配合Ambisonic Plugin插件去運(yùn)算并形成一個(gè)3D音頻,轉(zhuǎn)換成5.1.4,7.1.4,B-Format 或其他3D 環(huán)繞聲格式的信號(hào)。由于振膜間距較小,在高頻時(shí)會(huì)導(dǎo)致所謂的“空間混疊”,導(dǎo)致聲音質(zhì)量以及再現(xiàn)中的聲像定位精度和水平方面的顯著差異。
圖9 RODE NT-SF1 傳聲器
圖10 Sennheiser Ambeo VR
圖11 ZOOM-VR 傳聲器
由于聲源類型、記錄環(huán)境以及回放系統(tǒng)差異很大,因此不可能為所有陣列之間的差異得出一般性結(jié)論。然而,通過(guò)對(duì)現(xiàn)有國(guó)內(nèi)外研究的回顧,可以總結(jié)出HSV、HSVC 及HVC 這三種不同類型的物理配置的明顯差異。
在HVS 陣列中使用中上層之間的垂直間距的主要?jiǎng)訖C(jī)是漫反射聲音的垂直成像,隔離兩層之間傳聲器的相關(guān)性。眾所周知,隔離度對(duì)于水平圖像擴(kuò)展和增強(qiáng)層次是有效的。大多數(shù)HVS 陣列似乎都使用了垂直傳聲器間距的理論[6]。而HSVC 陣列在物理上更緊湊,從而在戶外音景或現(xiàn)場(chǎng)音樂(lè)會(huì)錄制情況下使用更加方便。另外一個(gè)最大的優(yōu)勢(shì)就是3D 到2D 的下混音。當(dāng)上層信號(hào)與其在中間層中的相應(yīng)傳聲器直接混合,便于2D 再現(xiàn)時(shí)由于重合的性質(zhì)產(chǎn)生梳狀濾波。與HVS 陣列相比,失真度較小,特別是使用全指向傳聲器。
在靈活性方面,HVS 陣列比HSVC 陣列更具優(yōu)勢(shì),特別是對(duì)于大型再現(xiàn)系統(tǒng)。由于間距的原因,可以更靈活地選擇麥克風(fēng)的指向性和擺放位置。較大的間距更有助于控制音色特征。例如,在音樂(lè)廳錄制大型管風(fēng)琴時(shí),頂部麥克風(fēng)信號(hào)可能會(huì)根據(jù)麥克風(fēng)的垂直位置而有很多變化。上層高度可以用作創(chuàng)造性工具,以產(chǎn)生所需的音色特征。
盡管兩種陣列都是在盡可能逼真地錄制和再現(xiàn)聲場(chǎng),但HVS 和HSVC 陣列配置和放置背后的動(dòng)機(jī)往往介于真實(shí)感和藝術(shù)性之間。現(xiàn)實(shí)主義和藝術(shù)性都是錄音的重要因素,與創(chuàng)造身臨其境的聽(tīng)覺(jué)體驗(yàn)相輔相成。從聽(tīng)眾的角度來(lái)看,可以為上層設(shè)計(jì)出各種創(chuàng)造性的聲音。例如,在音樂(lè)廳錄音中,面向觀眾區(qū)域的心形麥克風(fēng),往往比相對(duì)未經(jīng)處理的天花板吸收更多的高頻,可能會(huì)錄制到比直接向上的超心形麥克風(fēng)更柔和的反射聲。
總體而言,目前三種類型的3D 沉浸式錄音傳聲器陣列都存在各自的優(yōu)勢(shì)與局限性。在實(shí)際應(yīng)用中,還需要更主觀和客觀的研究來(lái)探索3D 沉浸式錄音傳聲器陣列的客觀參數(shù),完善沉浸式聲音質(zhì)量評(píng)估標(biāo)準(zhǔn)。