沉浸式音頻 (Immesive Audio,IA)是高新技術(shù)格式電影的核心組成要素,近年來(lái)發(fā)展極其迅猛。沉浸式音頻的精準(zhǔn)監(jiān)聽和制作通常依賴于專業(yè)混音棚,但隨著新冠疫情持續(xù)蔓延,視音頻遠(yuǎn)程跨域協(xié)同制作需求持續(xù)增強(qiáng),在遠(yuǎn)程或居家辦公無(wú)法獲得專業(yè)環(huán)境情況下,利用耳機(jī)等便攜式聽音設(shè)備創(chuàng)建空間音頻內(nèi)容成為可選解決方案,這類方案基于人耳空間定位原理,通過兩個(gè)立體聲通道創(chuàng)建空間和維度感知,進(jìn)而改善在耳機(jī)上監(jiān)聽沉浸式音頻格式時(shí)的聆聽體驗(yàn)。
人耳之所以能分辨出聲源發(fā)出聲音的方位,主要是由于聲音到達(dá)左右兩耳的雙耳時(shí)間差 (Interaural Time Difference,ITD)和雙耳聲級(jí)差 (Interaural Level Difference,ILD)。在辨別垂直方向的聲音方位時(shí),則還需考慮聲音因受頭部、軀干、耳廓等共同影響,特別是耳廓將來(lái)自于不同方向的聲音信號(hào)經(jīng)過反射和遮掩,而發(fā)生的折射、散射和衍射,形成不同的濾波效果,聽覺系統(tǒng)再對(duì)這些濾波效果進(jìn)行方位判斷。這里的濾波可用頭部相關(guān)傳遞函數(shù)(Head-Related Transfer Function,HRTF)表示。
HRTF也被稱為自由聲場(chǎng)到人耳的傳遞函數(shù),包含空間聽覺的重要線索。簡(jiǎn)單來(lái)說,HRTF表示自由聲場(chǎng)某點(diǎn)位置到人耳的頻率響應(yīng),通過測(cè)量自由聲場(chǎng)到人耳固定位置的頻率響應(yīng)可得到HRTF信息。具體測(cè)量方法是:在消聲室中,將麥克風(fēng)裝入人工頭模型的左右耳,在人工頭的不同方位播放沖激響應(yīng)信號(hào) (如氣球爆炸或發(fā)令槍聲等),錄制人工頭采集的信號(hào),即可獲得頭部相關(guān)脈沖響應(yīng)(Head-Related Impulse Response,HRIR),將其進(jìn)行頻域轉(zhuǎn)換即可得到HRTF。由于定位所需信息是在耳膜以前形成的,因而HRTF包含了人耳所需的所有物理定位信息。
因此,耳機(jī)等聽音設(shè)備可通過模擬HRTF進(jìn)行雙耳渲染,以提供音源方位信息改善沉浸式音頻體驗(yàn)。目前大多數(shù)雙耳渲染工具都依賴于代表平均物理特性的人工頭HRTF,而每個(gè)人的HRTF模型和默認(rèn)HRTF模型之間存在物理差異,這將導(dǎo)致不同的人在聽相同內(nèi)容時(shí)的聽覺體驗(yàn)有所差異。
當(dāng)前已有部分研究機(jī)構(gòu)完成HRTF的測(cè)量,并創(chuàng)建了相應(yīng)數(shù)據(jù)庫(kù),如中國(guó)科學(xué)院聲學(xué)研究所(ARI)、法國(guó)聲學(xué)與音樂協(xié)作研究所 (IRCAM)、美國(guó)加州大學(xué)戴維斯分校圖像處理和集成計(jì)算中心(CIPIC)和美國(guó)麻省理工學(xué)院 (MIT)的媒體實(shí)驗(yàn)室等,部分結(jié)果已公布以供研究。
CIPIC為了研究個(gè)體體征與HRTF數(shù)據(jù)關(guān)系,在測(cè)試時(shí)除了用人工頭攜帶兩組耳廓作為測(cè)試工具,還選擇了43個(gè)真人受試者進(jìn)行測(cè)試,共計(jì)45組人體測(cè)量數(shù)據(jù),每一組人體測(cè)量數(shù)據(jù)對(duì)應(yīng)一套HRTF數(shù)據(jù),使用者可按需選擇。人體測(cè)量數(shù)據(jù)中有27個(gè)人體測(cè)量參數(shù)來(lái)表征頭肩耳特征,其中17組為頭肩數(shù)據(jù) (圖1),10組為耳廓數(shù)據(jù) (圖2)。
圖1 頭肩數(shù)據(jù)測(cè)量圖
圖2 耳廓數(shù)據(jù)測(cè)量圖
索尼公司曾推出360臨場(chǎng)音頻 (360 Reality Audio)技術(shù),利用以聽者為中心的空間音頻技術(shù),通過將人聲、合唱、樂器等音源安置在不同的距離和角度,從360度全方位投射不同的聲音和音樂元素,從而生成三維聲場(chǎng),使用戶能夠沉浸于富有空間感的美妙音樂聲場(chǎng)中。在其用戶端播放軟件 “索尼精選Hi-Res音樂”中,用戶通過給頭部和耳朵拍照,可利用人工智能算法匹配數(shù)據(jù)庫(kù)中最接近的HRTF數(shù)據(jù),播放時(shí)對(duì)音源進(jìn)行HRTF渲染,產(chǎn)生空間和定位感。索尼這一解決方案僅適用于其自有應(yīng)用軟件,并需要結(jié)合專門的音樂文件,并不適用于更廣泛的工具和素材。
杜比公司提出全景聲個(gè)性化渲染手機(jī)應(yīng)用程序PHRTF Creator,通過測(cè)量用戶耳朵和頭部物理數(shù)據(jù),采用多達(dá)50000個(gè)點(diǎn)來(lái)創(chuàng)建個(gè)性化的HRTF,用戶可將生成的聲學(xué)圖加載到杜比全景聲渲染器,以獲得與自身特征相契合的空間聽感體驗(yàn)。
杜比PHRTF Creator軟件目前仍處于測(cè)試階段,且只支持iOS 13以上版本。用戶上傳自己的耳朵和頭部物理數(shù)據(jù),很快就可獲得相應(yīng)的HRTF數(shù)據(jù)文件,將該文件加載到杜比全景聲渲染器 (Dolby Atmos Renderer v3.7.2或更高版本),能夠獲得沉浸式監(jiān)聽音效。但杜比并未公布其HRTF數(shù)據(jù)匹配算法,而這正是用戶獲得最佳效果實(shí)現(xiàn)量體裁衣的關(guān)鍵。該渲染方式搭配專業(yè)混音工具,適用于在線游戲、音樂、影視行業(yè)專業(yè)人士。
圖3 不同人的HRTF圖譜
當(dāng)前對(duì)于改善通過耳機(jī)收聽音頻的方位感,主流方式均使用HRTF數(shù)據(jù)庫(kù),而對(duì)于提升HRTF數(shù)據(jù)準(zhǔn)確性目前有兩種解決方向:(1)擴(kuò)充HRTF數(shù)據(jù)庫(kù)樣本數(shù)量;(2)提升個(gè)性化HRTF人體數(shù)據(jù)的匹配準(zhǔn)確度。總之,沉浸式音頻利用個(gè)性化適配硬件終端的能力,結(jié)合實(shí)時(shí)渲染計(jì)算技術(shù),突破傳統(tǒng)揚(yáng)聲器陣列還音方式,能夠?qū)崿F(xiàn)耳機(jī)和虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí) (VR/AR)等多元化終端的沉浸式音頻體驗(yàn)。在視音頻遠(yuǎn)程跨域協(xié)同制作需求持續(xù)增強(qiáng)的背景下,離開專業(yè)混音棚的聲音制作人員可采用個(gè)性化音頻渲染方案通過耳機(jī)實(shí)現(xiàn)沉浸式音頻監(jiān)聽,能夠有效提升制作效率與質(zhì)量。