国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于虛擬現(xiàn)實模型的混響實時生成方案設計

2019-07-30 08:52董雪婷毛潤坤
復旦學報(自然科學版) 2019年3期
關鍵詞:混響聽者聲源

董雪婷, 張 瑩, 毛潤坤, 吳 昊

(上海大學 上海電影學院,上海 200072)

虛擬現(xiàn)實意圖在虛擬世界中模擬現(xiàn)實世界的一切,如何通過虛擬現(xiàn)實技術來提升使用者的沉浸感一直是研究的重點.聽覺同視覺一樣,是幫助人類感知世界必不可少的部分,因此也需要考慮如何讓虛擬世界聽起來更加符合現(xiàn)實世界.

在真實世界中,受聲波本身特性的影響,聲波的傳播非常復雜,會因障礙物造成各類聲學現(xiàn)象[1],而現(xiàn)實世界中常見的障礙物就是建筑.在建筑聲學中,很多情況下需要考慮聲波在閉室內傳播這一具有特定聲學特性的室內聲場.就虛擬現(xiàn)實(Virtual Reality, VR)而言,構建一個虛擬的3維空間是核心所在,即對建筑進行建模.因此在虛擬現(xiàn)實技術中,建聲仿真必不可少.

在室內聲場中,混響受室內容積、建筑結構和吸聲材料的影響最大,也最能體現(xiàn)室內的空間感.一個真實的混響效果能夠有效地幫助虛擬建筑模型形成逼真的空間環(huán)境感.

虛擬現(xiàn)實的另一大特征是交互性,用戶應當可以隨意地在空間中走動.在真實的室內環(huán)境中,隨著聽者的走動,其在空間中的位置會發(fā)生變化,無論聲源是來自聽者本身,還是來自空間中某一固定或移動的位置,聽感都會相應地發(fā)生改變.因此,在虛擬現(xiàn)實中也需要模擬這種自然的交互體驗,實時地根據用戶的操作改變其在空間中聽到的聲音,更好地增加用戶的沉浸感.

1 相關研究

1.1 室內聲學

圖1 室內聲場的構成Fig.1 Composition of room sound field

在室內聲場中,聽者在某一位置所聽到的聲音由3部分構成,分別為直達聲、早期反射聲和混響聲,其能量(本文用聲壓級來度量)和時間(t)的關系如圖1所示.直達聲指的是聲源經直線段傳播至聽音點的聲音,聽感只受距離的影響,距離每增加1倍,聲壓級下降6dB.早期反射聲指的是延遲于直達聲50ms以內到達的聲音,受室內界面的影響較大.混響聲指的是在早期反射聲之后經多次反射到達的聲音.

早期反射聲與直達聲由于時間相差很小,因此難以分開,只有助于增強直達聲的空間感.而混響聲由于經過多次反射,且每一次都受室內建筑的影響,因此它對室內真實空間感的營造最為重要[2].

19世紀末,賽賓提出了混響時間(T60)這一概念,即聲能密度在聲源停止發(fā)聲后衰減到原數(shù)值的百萬分之一(60dB)所需要的時間,以此奠定了建筑聲學的基礎.很久以來,這一直是唯一可測量、可計算的室內聲學參量,也是對室內空間感影響最大的參量.直到后來,研究者對聲音傳播有了更全面的認識,添加了傳播中因障礙物材料的吸聲機制引起的衰減現(xiàn)象.而后由于計算機技術的輔助,對建筑聲學的研究更是進入了可聽化的階段[3].

聲波有反射、透射和吸收現(xiàn)象,室內鋪設的不同材料具有不同的吸聲系數(shù),吸聲系數(shù)不僅與材料本身的性質有關,還與聲波的頻率、入射方向和材料厚度等因素有關.工程上一般選擇125,250,500,1000,2000和4000Hz這6個頻率的吸聲系數(shù)來表示該材料的吸聲性能,若未說明具體頻率,則專指500Hz時.混響時間與吸聲系數(shù)有關,因此混響時間的計算也需要考慮以上6個不同頻率.

室內聲場的另一關鍵指標是室內聲壓級,它與聽者到聲源的距離以及房間常數(shù)R(根據室內吸聲系數(shù)和室內總表面積得出)有關.根據距離的不同,聽者所聽到的聲音分別由直達聲或混響聲起主要作用,其臨界距離也稱為混響半徑,它取決于空間類型和房間常數(shù)R.

1.2 傳統(tǒng)建聲仿真的局限性

聲學特性的設計是建筑設計中必不可少的一個環(huán)節(jié),在沒有計算機輔助進行仿真的情況下,只能憑借設計人員的經驗和復雜計算,對音響系統(tǒng)的設計更是需要在建筑竣工后才能開始.而通過計算機進行建聲和音響系統(tǒng)的仿真,可以更輕松、直觀地獲得各個聲學參數(shù),能夠在工程實施之前發(fā)現(xiàn)設計中存在的問題,還可以不斷地嘗試多種方案,并對方案進行有效的驗證[4].因此,在建聲領域的研究中,引入計算機仿真非常必要.

丹麥的ODEON以及德國的EASE軟件是目前應用廣泛的建聲仿真軟件,它們能夠通過計算機建立工程的3維模型,對輸入的各類建聲信息進行運算,從而輸出準確、真實的聲學參量.二者均采用了聲線跟蹤法與虛擬聲源法.ODEON多用于廳堂本身建聲特性的仿真,但無法監(jiān)聽輸出混響效果[5].而EASE則多用于揚聲器系統(tǒng)在廳堂內部的仿真,可以通過外掛的EARS模塊,對輸出結果進行雙耳試聽,但是由于受制于計算機本身的性能,使用聲線跟蹤法生成監(jiān)聽效果耗時很長,并且不能做到根據監(jiān)聽位置的移動進行混響效果的實時生成.

而虛擬現(xiàn)實技術追求沉浸感,因此需要對建筑模型進行真實的建聲仿真,并要求較快的計算速度,同時由于交互性的存在,需要實時計算并生成混響效果.

1.3 傳統(tǒng)人工混響的局限性

原本混響效果是一種只能通過建筑聲學才能產生的自然聲學現(xiàn)象,只能利用特定的建筑結構來產生特定的混響效果.隨著對相關技術的深入研究,混響效果已經可以利用數(shù)字信號處理的方式進行實現(xiàn).

目前人工混響的研究領域已有多種混響模型和優(yōu)秀的混響算法,如經典模型Schroeder和Moorer,以及較新的模型Gardner、Jot和Dattorro[6].商業(yè)領域也有各類硬件效果器和混響插件被運用于影視聲音設計和音樂創(chuàng)作中,這些技術起到了不可或缺的作用.

但是這類混響效果器都需要聲音設計師憑借自身經驗,自行調整參數(shù)以達到最終效果,并且參數(shù)需要提前進行設置.而虛擬現(xiàn)實的交互性決定了系統(tǒng)必須根據用戶的操作實時進行輸出效果的調整,因此需要對以上人工混響模型加以改進.

2 混響實時生成方案的設計

虛擬現(xiàn)實中的聲音制作,涉及到復雜的雙耳聽覺,其制作流程和思路可以參考Ambisonics的音頻制作方式.在實景拍攝的情況下,一般使用Ambisonics話筒進行拾音,再通過支持4聲道的音頻工作站進行處理,調整音源在虛擬現(xiàn)實空間的定位和音量等[7].而本文探討的是除了實景拍攝之外,利用CG技術來構建虛擬場景及角色的情況,這種情況一般使用游戲引擎進行制作,對于聲音而言,同樣是借助游戲引擎所搭建的虛擬3維空間來構建聲場.

游戲引擎內部所具有的空間坐標信息,不但可以預先將聲源放置在空間中,還可以繪制聲源的運動軌跡,并且實時監(jiān)測用戶行為,不斷計算聽者與聲源之間的距離.由于虛擬現(xiàn)實場景要模擬真實世界,因此坐標系單位長度與真實世界的長度應該對應,從而計算出真實的距離信息.利用坐標系還可計算出房間的長、寬、高,以此計算出室內總表面積、體積等房間信息.對于建筑模型表面的材質,系統(tǒng)內可預置一些常見墻表面材料供用戶選擇,如磚墻、水泥、瓷磚、布等,并將其對各頻段的吸聲系數(shù)存于系統(tǒng).

Unity是一個常用的游戲開發(fā)引擎,目前也應用于虛擬現(xiàn)實的開發(fā),并且可以很好地支持其他語言編譯的插件,因此本文基于Unity來設計混響實時生成系統(tǒng)方案.

本系統(tǒng)設計目的為基于虛擬現(xiàn)實模型,計算其對應的建聲參量,輸出對應的混響效果,并根據聽者與聲源位置的移動進行實時調整.考慮到應用于虛擬現(xiàn)實聲音制時作,需要平衡準確性與實時性,若完全采用EASE中運用的幾何聲學的研究方法,雖然結果精確,但生成速度低.因此,可以將各理論方法與電影混音藝術方法相結合,追求生成速度的同時,保持藝術真實.

根據室內聲場的組成,將系統(tǒng)分為3個部分: 直達聲、早期反射聲以及混響聲,其總體架構如圖2所示,再分別計算與生成.

圖2 生成系統(tǒng)的總體架構圖Fig.2 Overall architecture of the generating system

2.1 直達聲的生成

考慮到在音源錄制過程中,一般使用指向性電容話筒在強吸聲的專業(yè)錄音棚內錄制,因此錄制出的聲音各頻段的響度受話筒的頻響曲線等因素影響,并不完全符合真實世界的情況,其聲壓級也取決于錄制時的增益設置,因此錄制的素材仍需要后期處理.例如,需要使用均衡器(Equalizer, EQ)消除錄制過程中話筒的影響,同時,要將其音量調整到聽者位于發(fā)生源位置時所聽到的真實效果.

根據建聲理論,直達聲不受室內各界面的影響,其聲壓級只與距離有關,距離每增加1倍,聲壓級下降6 dB.因此,系統(tǒng)需要實時計算聽者與聲源的距離,并根據距離調整其增益.

另外,還需要考慮聲音各頻率在傳播過程中的衰減程度不同,當聲源較近時,高頻成分會更豐富,從墻面和地面?zhèn)鱽淼幕祉懧暤挠绊懸矔伲斅曉摧^遠時則相反[8].因此系統(tǒng)需要為聲源添加一個低通(Low Pass,LP)濾波器,并根據距離實時調整濾波器的參數(shù),使其產生真實的距離感.

2.2 早期反射聲的生成

早期反射聲指晚于直達聲50ms內的反射聲,其疊加產生了前期的混響效果,可利用延時單元來模擬單個反射聲.根據室內聲學原理,聲音傳播路徑不同以及墻面等障礙物的吸收和反射效果會導致有限多個反射聲產生.因此,可以利用多級延時線混響算法實現(xiàn),利用每一個延時線的抽頭對應一個離散的反射聲,通過對增益的控制來模擬聲音在實際傳播過程中的衰減[9].

圖3 早期反射聲模型Fig.3 Early reflections model

對于利用多級延時線混響算法來模擬混響聲,Schroeder首先提出了一種模型進行實現(xiàn)[10],而后Moorer對模型又進行了改進,二者的區(qū)別在于后期的混響實現(xiàn)方式,對于早期反射聲的部分則一致,其結構圖如圖3所示[11],其中mi代表延時,αi代表衰減.為了追求更準確真實的效果,Schroeder曾建議將每個衰減αi都替換成濾波器來模擬墻面對各頻段的吸收效應,但由于哈斯效應的存在,各個反射聲在聽覺上最終會混合在一起,人耳無法區(qū)分每個反射聲,并且全部替換成濾波器會極大的增加系統(tǒng)的運算量.而本文設計的虛擬現(xiàn)實系統(tǒng)需要進行混響效果的實時輸出,替換會得不償失,因此選擇了為信號整體添加一個低通濾波器的方式,用于模擬聲音在空氣傳播過程中的衰減以及室內墻壁的吸收、反射效果.

系統(tǒng)需要根據室內空間的大小、聲音的傳播速度、室內鋪設材料對各頻段的吸聲情況,計算出模型需要的各個關鍵參數(shù),并根據聽音者與聲源位置的改變,作出相應的改變,最后實時輸出效果.

2.3 混響聲的生成

由于早期反射聲時間短,一般只經墻壁、天花板、地面反射1~2次后到達聽者耳朵,數(shù)量有限,因此可用上節(jié)中所述方式實現(xiàn),而后期混響聲無法用同樣的方法進行模擬,需要使用遞歸型結構的IIR(Infinite Impulse Response)濾波器.Moorer模型實現(xiàn)后期混響的結構圖如圖4所示,C1~C6為6個并聯(lián)的低通梳狀濾波器.

現(xiàn)今,在Schroeder與Moorer這兩個經典的人工混響模型基礎上,利用數(shù)字信號處理技術制作混響效果器方面已有了很多優(yōu)秀的研究成果,例如Gardner、Jot、Dattoroo等模型[6,12],這些模型已廣泛運用于影視、游戲聲音的混音工作中.

這些人工混響模型已經可以很好地完成特定混響的生成,但在實際應用過程中,例如音頻工作站ProTools的混響插件Revibe(如圖5所示),則需要用戶自行設置混響時間、房間大小、延遲時間、各頻段的衰減情況、增益等各項關鍵聲學參數(shù),然后輸出最終效果.

圖4 Moorer混響模型Fig.4 Moorer reverberation model

圖5 混響插件RevibeFig.5 Reverberation plug-in Revibe

在虛擬現(xiàn)實中,關鍵是如何根據房間模型的建聲信息,基于建筑聲學基礎理論,利用計算機代替混音師自動計算得出以上關鍵參數(shù),并生成最終效果.后期混響聲與房間內部構造以及所鋪設材料吸聲情況關系較大,若僅考慮單一閉室內部,一旦在建模過程中將房間基本信息確定,混響則隨之確定,聲源以及聽者位置的改變所造成的影響很小,因此不必進行實時的改變.

3 結 語

將建筑聲學引入虛擬現(xiàn)實技術,建立混響實時生成系統(tǒng),可以使虛擬現(xiàn)實世界更符合真實的建筑聲學理論,幫助提升用戶的沉浸感.系統(tǒng)還可應用于ODEON、EASE等建聲設計軟件,可供設計師在虛擬建筑空間中隨意走動的同時,實時監(jiān)聽方案的最終效果.同時,系統(tǒng)也可用于影視混音階段,幫助混音師根據真實拍攝空間的建聲信息,計算得出對應的聲學參量,并直接輸出生成混響的效果.

本文只簡單地考慮了單一閉室的情況,且閉室內不包含其他障礙物,但在真實情況下,閉室內的情況復雜,會包含更多障礙物,而用戶更有可能在不同房間之間走動.因此,本文所涉及的方案為虛擬現(xiàn)實的聲音制作提供參考的同時,仍有很大的改進空間.

猜你喜歡
混響聽者聲源
虛擬聲源定位的等效源近場聲全息算法
勞工(外二首)
基于GCC-nearest時延估計的室內聲源定位
海洋混響特性分析與建模仿真研究?
淺談音響效果器的應用
嶺南園林聲景美研究
運用內積相關性結合迭代相減識別兩點聲源
用于室內環(huán)境說話人識別的混響補償方法
力-聲互易在水下聲源強度測量中的應用
三人成虎