王薇娜 董強國
(中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測所),北京 100086)
技術(shù)讓電影藝術(shù)的表現(xiàn)媒介從最初的黑白畫面到后來的高位深彩色畫面、從無聲到現(xiàn)在的沉浸式環(huán)繞聲體驗,使得電影藝術(shù)愈加散發(fā)出迷人的魅力,也使得電影這門最年輕的藝術(shù)形式在藝術(shù)長廊中獲得了無限的生命力和創(chuàng)造力。
沉浸式音頻技術(shù)在數(shù)字電影領(lǐng)域應(yīng)用愈發(fā)廣泛,沉浸式聲音體驗獲得廣泛的觀眾認(rèn)可?!丁笆奈濉敝袊娪鞍l(fā)展規(guī)劃》中明確提出“開發(fā)多層次多元化電影市場”。在多元化放映模式中,聲場空間各異,且放映場所為非專業(yè)影院空間,受制于隔音條件、低噪音等限制,部分場所無法利用揚聲器還音,耳機(jī)憑借高度便捷性及私密性,成為個性化放映場景的常用模式,也是人們?nèi)粘W钇毡榈倪€音工具。但電影音頻目前的制作環(huán)境主要針對影廳聲場環(huán)境制作,無法通過耳機(jī)兩聲道還原環(huán)繞沉浸音效,并且普通耳機(jī)聲場效果會隨人頭部運動而改變,不符合自然聲場效果,極大地影響多元化電影觀影的沉浸感臨場感,無法滿足高品質(zhì)觀影需求。
在既往項目研究中,我們開展了虛擬環(huán)繞聲技術(shù)應(yīng)用研究。在實現(xiàn)過程中,我們發(fā)現(xiàn),虛擬環(huán)繞聲的重點在于還原空間聲場的效果,但由于耳機(jī)的佩戴方式,還原的聲場效果會隨人頭的運動一同改變,最終是相對靜止的聲場效果。而在自然聲場中,聲源并不會隨我們的運動變化而改變,從而有利于我們更好地對聲像定位。本文探討的核心算法目標(biāo)便是在利用耳機(jī)的沉浸音還音基礎(chǔ)之上,增加對頭部姿態(tài)的實時感知,動態(tài)調(diào)整還音效果,帶來智能交互的體驗感受。
在用耳機(jī)觀影時,音源位置會隨人頭姿態(tài)改變而變化,這與真實環(huán)境下的聽覺效果不同。在利用耳機(jī)作為還音單元的觀影模式下,為了使用戶獲得更好的沉浸感與交互感,本課題通過將人體姿態(tài)變化轉(zhuǎn)化為虛擬音源的位置變化,利用頭相關(guān)傳遞函數(shù)(Head Related Transfer Function,HRTF)函數(shù)重建音頻的虛擬聲像,實現(xiàn)對耳機(jī)姿態(tài)感知的音頻反饋。另一方面結(jié)合空間聲場的特點對音頻進(jìn)行特定空間聲場渲染,最終實現(xiàn)空間音頻的頭部追蹤效果。
在還音單元中添加陀螺儀傳感器,追蹤人的頭部運動,根據(jù)傳感器接口數(shù)據(jù),獲得頭部運動路徑,從而調(diào)整空間音頻的渲染參數(shù),使得無論頭部如何移動,虛擬聲源總是保持在原有的、類似影廳的聲場位置上,實現(xiàn)對頭部姿態(tài)的交互感知,真正帶給觀眾融入影廳的感覺。在姿態(tài)感知算法中,HRTF是一項非常有效的技術(shù),其非常適用于耳機(jī)還音單元。因為HRTF的重建區(qū)域針對的是雙耳,并且具有很高的聲場還原度和定位感。應(yīng)用HRTF對音頻信號進(jìn)行處理務(wù)必要涉及到HRTF數(shù)據(jù)庫,但是無論多高精度的數(shù)據(jù)庫都不可能擁有所有角度的HRTF數(shù)據(jù),因此為了更接近全覆蓋,我們需要使用HRTF插值技術(shù)來近似計算出數(shù)據(jù)庫中沒有的HRTF數(shù)據(jù)。
空間混響重點在于模擬空間還音的特性,這包括還原兩點基礎(chǔ)信息:空間大小尺寸以及音源位置與監(jiān)聽位置的差別。本項目利用基于Moorer混響模型的混響算法。需要測試設(shè)定的參數(shù)有:房間大小(房間的體積與混響時間、預(yù)延遲參數(shù)相關(guān));混響時間(模擬影廳空間時,應(yīng)滿足標(biāo)準(zhǔn)GY/T 311-2017《電影院視聽環(huán)境技術(shù)要求和測量方法》)。
調(diào)整后的音頻效果有以下幾點評判標(biāo)準(zhǔn):
(1)清晰度:混音中的每個聲音都應(yīng)該干凈,聲場不能模糊不清,噪聲量或其他異常現(xiàn)象必須受到控制。
(2)獨立性:每種音源都應(yīng)能輕易分辨。
(3)平衡:混音需要有良好的頻率平衡。
姿態(tài)感知最直接的方式就是通過傳感器捕捉動作信號。主流的陀螺儀傳感器可以提供我們需要的姿態(tài)變化參數(shù)。人耳對聲音的定位由三個維度確定:水平方位角、垂直方位角、距離。在模擬影廳的放映環(huán)境時,考慮收聽者與揚聲器的距離不變,所以我們可以將距離設(shè)置為定值,需要跟蹤的是音源相對水平方位角θ和垂直方位角Φ的變化。如圖1所示:人頭俯仰運動表示為以X軸為軸心的轉(zhuǎn)動,帶來垂直方位角Φ的改變;人頭左右轉(zhuǎn)動可以表示為以Y軸為軸心轉(zhuǎn)動,影響的是水平方位角θ的改變;人頭左右擺動可以表示為以Z軸為軸心的垂直方位角Φ的變化。
圖1 人頭轉(zhuǎn)動角度示意圖
我們實驗中選用的是一款JY-61系列的姿態(tài)陀螺儀模塊,該陀螺儀在X、Y兩軸的角度精度,靜態(tài)可達(dá)到0.05°,動態(tài)達(dá)到0.1°,Z軸的角度精度為1°,可以滿足我們的需求。當(dāng)芯片水平正向放置時,右手方向為X軸,水平向前為Y軸,垂直芯片向上為Z軸。測量的旋轉(zhuǎn)角方向是以各軸為軸心,滿足右手法則,如圖2所示。
圖2 陀螺儀姿態(tài)信號方向圖
因此,當(dāng)芯片水平放置時,以X軸為軸心的旋轉(zhuǎn)角度表示俯仰角,以Z軸為核心的角度表示水平旋轉(zhuǎn)角度。實驗中,為了選取精度更高的軸向,我們選擇將芯片立放,即將上圖的坐標(biāo)系,以X軸為軸心逆時針旋轉(zhuǎn)90°,這樣X軸的旋轉(zhuǎn)角α依然表示俯仰角,Y軸的旋轉(zhuǎn)角β為水平旋轉(zhuǎn)角。相對的,如果以人頭為球心固定不動,聲源的位置變化為(-α,-β),通過這種變換。將人頭的轉(zhuǎn)動,轉(zhuǎn)化為聲場空間中的聲源位置變化,方便使用頭相關(guān)函數(shù)庫(HRTF)。
在虛擬聲中,HRTF是一項非常有效的技術(shù),其適用于耳機(jī)還音單元。因為HRTF的重建區(qū)域針對的是雙耳,并且具有很高的聲場還原度、空間感和定位感。應(yīng)用HRTF對音頻信號進(jìn)行處理務(wù)必要涉及到HRTF數(shù)據(jù)庫。項目組調(diào)研了來自兩個機(jī)構(gòu)的頭相關(guān)函數(shù)數(shù)據(jù)庫,一是加州大學(xué)戴維斯實驗室V.R.Algazi等人建立的CIPIC數(shù)據(jù)庫,二是英國約克大學(xué)SADIE(Spatial Audio for Domestic Interactive Entertainment)項目建立的數(shù)據(jù)庫。
CIPIC的頭相關(guān)傳遞函數(shù)的公共數(shù)據(jù)庫,測試了45名受試者在25個水平方位角和50個俯仰角的頭部相關(guān)脈沖響應(yīng),共計1250個方向,測量點在三維空間坐標(biāo)系如圖3所示。此外,該數(shù)據(jù)庫還包括每個受試者的人體測量數(shù)據(jù),以及人體測量數(shù)據(jù)與HRTF時間和頻譜特征之間的相關(guān)性。
圖3 CIPIC HRTF測試點方位圖
方位角集合(單位:度):
α=[-80-65-55-45:5:5 55 65 80](0度表示人臉正前方的測試點,順時針為正)
俯仰角集合(單位:度):
β=-45+5.625×(0:49)(0度表示人臉正前方的測試點,向下為負(fù))
約克大學(xué)的HRTF數(shù)據(jù)庫受試者分為兩類,一類是人工頭,其測試點共有8802個方向,真人受試者的測試點有2114或2818個。俯仰角從[-90°,90°](0°表示人臉正前方的測試點,上正下負(fù)),水平方位角從[0°,359°](0°表示人臉正前方的測試點,逆時針為正)。
圖4 約克大學(xué)不同HRTF測試點方位圖(左:人工頭,右:真人)
可以看出約克大學(xué)的HRTF數(shù)據(jù)庫樣本中,人工頭的測試數(shù)據(jù)點集最多,因此我們選擇采用該函數(shù)數(shù)據(jù)庫。
由于HRTF測試數(shù)據(jù)庫是離散的,無論多高精度的數(shù)據(jù)庫都不可能擁有所有角度的HRTF數(shù)據(jù),因此總會有需要的數(shù)據(jù)點在測試點集之外。因此當(dāng)目標(biāo)位置未被測試點集覆蓋時,需要插值法獲得響應(yīng)函數(shù)。為了找到最恰當(dāng)?shù)奈恢?通常的算法是使用德勞內(nèi)(Delaunay)三角法算法,找到需求點附近最近的以測試點為頂點的三角形,以HRTF測量點(方位角、俯仰角)生成一個三角形網(wǎng)格。
對任一點X(θ,Φ)估計相應(yīng)的HRTF。在測試點集中找到包圍點X的最小三角形,該三角形頂點標(biāo)記為A、B和C,如圖5所示,則點X可以表示為頂點的線性組合:
圖5 三角形插值法幾何圖例
其中g(shù)_i是標(biāo)量權(quán)重。如果權(quán)重之和等于1,[g_1,g_2,g_3]就是X點的重心坐標(biāo)。給定一個期望的源位置X,重心插值權(quán)重的計算公式如下:
其中:T=[[A-C],[B-C]]
重心坐標(biāo)被用作計算插值權(quán)重,用于估計X點的左右耳HRTF,在A、B和C測量的HRTF的加權(quán)和作為X點HRTF函數(shù)值,如式(4)和式(5)所示。這種插值方法的主要優(yōu)點之一是它不會導(dǎo)致插值的HRTF不連續(xù):對于一個從一個三角形平滑移動到另一個三角形的聲源,HRTF估計值會平滑變化,甚至在交叉點也是如此。
算法流程如圖6所示,具體實現(xiàn)時有以下幾點需要注意:
圖6 姿態(tài)跟蹤渲染算法流程圖
(1)對音頻信號在進(jìn)行FFT變換時,采用漢寧短窗;
(2)由于人耳對高頻信號的方向較為敏感,低頻信號通常不提供方位信息,因此在卷積渲染之前要通過高通濾波器對信號進(jìn)行處理。
在算法具體實現(xiàn)時,采用callback()異步調(diào)用程序結(jié)構(gòu),不斷讀取陀螺儀信號并估計目標(biāo)點HRTF。主程序的播放進(jìn)程持續(xù)進(jìn)行渲染。
聲音在一定的反射環(huán)境下到達(dá)人耳的過程,營造聲音在特定環(huán)境下的三維混響效果。聲源信號首先到達(dá)人耳的聲音稱為直達(dá)聲(Direct Sound) ;隨后的幾個比較明顯分開的聲音稱為早期反射聲(Early Reflected Sounds) ,其聲壓較大,能夠反映空間中聲源、人耳以及反射物體之間的距離關(guān)系;其后的一段連綿不斷的尾音稱為混響(Reverberation)。
從影片制版開始,數(shù)字電影的放映規(guī)范都是針對室內(nèi)空間的放映環(huán)境,從建筑聲學(xué)到電聲環(huán)境都給出了相關(guān)技術(shù)指標(biāo)。針對揚聲器的影廳技術(shù)規(guī)范也非常詳細(xì),這些規(guī)范要求較好地統(tǒng)一了放映端的電聲環(huán)境。而使用耳機(jī)還音的放映方式,缺失了在影院中從音箱到人耳的這一段物理路徑,影廳的空間混響在耳機(jī)還音中無法體現(xiàn)。因此添加一部分空間聲場效果,能有效改善耳機(jī)播放的頭中效應(yīng),更好地模擬影院的還音效果。
從信號處理的角度,聲音在一個有限空間后的變化,可以看做是經(jīng)過了一個濾波器,而這個濾波器的響應(yīng)函數(shù),我們就定義為房間脈沖響應(yīng)(RIRs)。通常得到脈沖響應(yīng)的方式有兩種:實地測量和鏡像源模型估算。由于實地測量在實施時有局限性,我們主要研究了鏡像源模型估算法。
鏡像源模型可以用來模擬給定聲源和傳聲器位置的房間內(nèi)的混響,使用鏡像方法,Allen和Berkley開發(fā)了一種有效的方法來計算有限脈沖響應(yīng)(FIR),該方法可以模擬矩形房間內(nèi)聲源和接收器之間的聲場。
圖7顯示了一個位于剛性反射墻附近的聲源S。在接收處D,有兩個信號到達(dá),一個是直達(dá)聲,另一個是自反射聲。直達(dá)聲的路徑長度可以從已知的聲源和接收地的位置計算出來。利用鏡像法,聲源S的鏡像S’位于墻后,距離等于源與墻的距離。根據(jù)對稱性,三角形SRS'是等腰的,因此反射聲路徑長度SR+RD與鏡像源S'到達(dá)接收處的路徑S'D相同。因此,為了計算反射路徑的長度,我們可以構(gòu)建一個源的鏡像并計算目的地和鏡像之間的距離。一次反射我們用一個鏡像來計算距離。圖8顯示了一條涉及兩次反射的路徑。這條路徑的長度可以從SD的長度得到。鏡像也可以擴(kuò)展到其他方向的墻面,如天花板和地板的反射。一般來說,反射的路徑長度(以及因此的延遲)可以通過計算多個源鏡像和目標(biāo)之間的距離得到。反射的強度可以從路徑長度和路徑中涉及的反射次數(shù)中得到。路徑中涉及的反射次數(shù)等于用于計算的鏡像個數(shù)。
圖7 單鏡像聲源一次反射路徑
圖8 二次反射鏡像源
作者Emanuel將該算法用C++實現(xiàn),并建立一個DLL動態(tài)鏈接庫供調(diào)用。函數(shù)定義為:
function [h,beta_hat]=rir_generator(c,fs,r,s,L,beta,nsample,mtype,order,dim,orientation,hp_filter);
其中,輸入的參數(shù)定義如下:
?
其余輸入?yún)?shù)為可選項。輸出h,表示M組采樣數(shù)的響應(yīng)值;當(dāng)輸入混響時間時,輸出相對應(yīng)的反射系數(shù)。
在生成房間響應(yīng)函數(shù)時,是以影廳的長、寬、高作為影廳大小參數(shù)L(x,y,z)、影廳六面的反射系數(shù)作為參數(shù)β、每個揚聲器(聲源)的位置坐標(biāo)作為參數(shù)s(x,y,z)、麥克風(fēng)(拾音)位置作為參數(shù)r(x,y,z)輸入鏡像聲源模型算法程序,鏡像聲源模型算法程序涉及的參數(shù)還包括提前設(shè)定好的聲音傳播速度c和采樣頻率fs。在確定模擬影廳空間大小后,麥克風(fēng)(拾音)位置是設(shè)置在相應(yīng)影廳的觀影皇帝位,也就是設(shè)計在(L_x/2,(2L_y)/3,1.5)的位置,其中L_x是影廳大小參數(shù)L(x,y,z)的x的值,L_y是L(x,y,z)的y的值,1.5表示拾音位置在Z方向上固定為1.5m,將該坐標(biāo)作為參數(shù)r(x,y,z)代入鏡像聲源模型算法程序。
輸入?yún)?shù)還需要空間墻體的反射系數(shù)或是空間的混響時間(單位:秒)。通過在一些實地影廳的測量,我們獲取了一組影廳的混響時間數(shù)據(jù),經(jīng)過篩選,表中的數(shù)據(jù)都符合標(biāo)準(zhǔn)GY/T 311-2017《電影院視聽環(huán)境技術(shù)要求和測量方法》中規(guī)定的0.032808V0.333333≤RT60≤0.07653V0.287353要求,(V是設(shè)定的空間大小體積m)。
表1中數(shù)據(jù)根據(jù)體積可以分為三類影廳:一類影廳體積在1500m左右,代表中大型影廳;一類影廳體積在700m,代表中型影廳;還有一類代表巨型影廳,體積在6000m以上。根據(jù)這些測算數(shù)據(jù)可以推算出相應(yīng)的房間聲場響應(yīng)RIR。
表1 影廳混響時間測試數(shù)據(jù)
還原聲場空間及姿態(tài)追蹤的裝置中的各個算法模塊可全部或部分通過軟件、硬件及其組合來實現(xiàn)。上述各模塊可以硬件形式內(nèi)嵌或獨立于計算機(jī)設(shè)備的處理器中,也可以軟件形式存儲于計算機(jī)設(shè)備的存儲器中,以便于處理器調(diào)用執(zhí)行以上各個模塊對應(yīng)的操作。
在具體產(chǎn)品應(yīng)用中,可將其設(shè)計為含陀螺儀的耳機(jī)單元或VR頭戴設(shè)備,也可拆分為獨立姿態(tài)感知器件配合普通耳機(jī)使用。算法可內(nèi)置在設(shè)備硬件芯片中,也可加載在軟件中配合相關(guān)硬件使用。對于智能穿戴設(shè)備,普遍對算法要求較高,需要移植的算法應(yīng)具備低功耗、算力資源占用低、RAM占用少、低延遲。因此還需要對算法優(yōu)化,盡可能少地占用資源。
本文提出的技術(shù)方案可應(yīng)用于家庭影院、點播影院、社區(qū)影院、酒店影院、移動影院等多層次多元化耳機(jī)應(yīng)用場景,提高觀影沉浸感臨場感,實現(xiàn)高品質(zhì)電影放映,不僅拓寬電影發(fā)行放映渠道,促進(jìn)多元化電影縱深發(fā)展,培育新型電影消費模式,還有助于探索VR/AR等虛擬技術(shù)與電影的融合發(fā)展,持續(xù)拓展電影多層次多元化放映,為觀眾提供更加豐富、多樣、高品質(zhì)的電影體驗,滿足人民群眾多元化高品質(zhì)觀影需求。?
①GY/T 311-2017《電影院視聽環(huán)境技術(shù)要求和測量方法》。