沈 浩 于英龍 劉霄鋒
(1.中國傳媒大學新聞學院,北京 100024)
(2.中國傳媒大學計算機與網絡空間安全學院,北京 100024)
虛擬現(xiàn)實技術是在20世紀發(fā)展起來的全新的實用技術,通過虛擬與現(xiàn)實相結合,給使用者帶來環(huán)境的沉浸感。該技術使用現(xiàn)實生活中的數(shù)據,通過計算機圖形學和渲染技術,建模生成一種虛擬環(huán)境,與各種輸出設備相結合,比如:虛擬現(xiàn)實頭盔、虛擬現(xiàn)實眼鏡、虛擬現(xiàn)實體驗倉等,讓使用者感受到計算機中模擬出的景象,這些景象可以是現(xiàn)實生活中真實的物體、環(huán)境,也可以是完全虛構的物質。
1984年,VPL公司的Jaron Lanier首次提出了“虛擬現(xiàn)實”的概念,這時的虛擬現(xiàn)實技術還只是運用于航天、軍工等專業(yè)領域。在1995 年,3dfx公司推出了被稱為Voodoo系列3D 圖形加速芯片,同時期三維圖形生成技術、多傳感器交互技術和高分辨顯示技術也被提出,虛擬現(xiàn)實技術通過電子游戲、電影等音視頻方式進入大眾視野。
2016年,Sony公司基于PlayStation 4 家用電子游戲機推出了虛擬現(xiàn)實頭戴式顯示器PlayStation VR;Valve公司基于自己游戲平臺Steam 與HTC公司合作推出了虛擬現(xiàn)實頭戴式顯示器HTC Vive;Facebook旗下的子公司Oculus也推出了虛擬現(xiàn)實頭戴式顯示器Oculus Rift。同時期,英偉達公司推出了RTX 系列顯卡,通過DLSS深度學習超級采樣技術、RTX 實時光線追蹤技術、CUDA 技術極大提升了顯卡的算力,使得三維場景能夠以實時渲染的方式,以1920×1080像素的分辨率、60幀/秒的速率運行,這讓虛擬現(xiàn)實技術漸漸進入到了各行各業(yè)中。
虛擬現(xiàn)實技術在影視和廣播電視行業(yè)的應用也在逐年加深,由The Weather Channel電視網使用Unreal引擎搭建出了沉浸式混合現(xiàn)實天氣演播室,主播在介紹各地天氣情況時,演播室的環(huán)境會隨著天氣的情況發(fā)生改變,用戶能夠根據畫面感受到將要到來的天氣狀況,這讓天氣預報和分析更具吸引力;由迪士尼公司發(fā)行的真人劇集 《曼達洛人》(The Mandalorian)借助虛擬現(xiàn)實技術,不使用綠幕而是在攝影棚內搭建了LED 幕墻背景 (圖1),根據已經渲染好的場景素材進行拍攝,并在導演監(jiān)視器前直接生成背景特效已經完成的畫面,演員也能夠在表演時了解自身所處的環(huán)境,更好地達到表演的要求。
圖1 《曼達洛人》拍攝場景
虛擬現(xiàn)實技術自2012年通過虛擬植入的方式已經在央視春晚應用多次,各省級電視臺、網絡媒體也漸漸開始結合虛擬現(xiàn)實技術,借助強大的演播廳功能推出各種特色節(jié)目。但是在我國一些三四線城市的市級電視臺或區(qū) (縣)級電視臺或者大學的校級電視臺,只有一個演播廳,且其要承擔多檔欄目制作的情況下,傳統(tǒng)實景演播廳設備的指標、穩(wěn)定性、部分相應功能已經無法滿足當下的欄目制作需要,配套設備也存在年久失修的情況。
使用傳統(tǒng)演播廳錄制節(jié)目時,需要根據不同節(jié)目的特點制作場景道具,有時還需要對道具進行修改,費時費力,這種傳統(tǒng)節(jié)目環(huán)境制作方式已經無法滿足節(jié)目場景需求多樣化、欄目特色鮮明化、節(jié)目制作快速化的特點。除此之外,由于場地限制(上述電視臺演播廳的場地都在100m左右),無法滿足綜藝等大場地節(jié)目制作的條件,同時策劃的思路也容易被場地大小所制約,導致一些充滿想象力的創(chuàng)意被現(xiàn)實的條件所埋沒。
與有專用演播室的電視臺相比,一些大學的實驗室、項目組甚至沒有相應的場地、專業(yè)的器材、拍攝制作的人員,但又會經常面臨客人參觀、領導開會等場面,需要通過文字、視頻等方式將研究成果展示出來,讓參觀者、觀看者能夠具象理解該實驗室的技術水平,因此需要有一個能夠快速制作介紹內容的方法,滿足實驗室的要求。
基于上文提到的種種問題與不便,首先是實體演播廳空間太小或是根本就沒有空間的問題,通過使用三維建模軟件等技術搭建所需要的演播廳環(huán)境,基于光照渲染技術,也可以讓搭建好的虛擬演播廳環(huán)境達到“以假亂真”的效果。對于演播廳的布局構造也要考慮到多方面應用,不僅是直播類型視頻的制作,應同時兼顧錄制類節(jié)目的制作。
基于真實演播廳進行的設計,即將虛擬演播的布局按照現(xiàn)實中的演播廳進行還原,設置好錄制區(qū)、監(jiān)控區(qū)、調音區(qū)等后期區(qū)域,在畫面中根據區(qū)域放置不同的功能。但由于要還原現(xiàn)實,導致建模工作增多,類似于包裝區(qū)、機柜區(qū)等區(qū)域完全可以通過系統(tǒng)的功能進行代替,其存在意義僅為模擬真實情況,較易占用渲染資源。
因此基于虛擬演播廳進行的設計,并非按照真實演播廳的情況進行布局設置,只保留與畫面有關的錄制區(qū)域,并沒有監(jiān)控區(qū)、調音區(qū)、包裝區(qū)、機柜區(qū)等需由軟件實現(xiàn)的后期制作區(qū)域。與現(xiàn)實區(qū)域相比,在進行布局設計,僅考慮鏡頭因素即可,場地大小、機位數(shù)量不再成為限制性因素。對于出鏡位置的設計時,僅考慮美觀與畫面合理性,且可以針對不同類型的節(jié)目設置不同的區(qū)域,不需要考慮現(xiàn)實因素。
以圖2所示布局為例,演播廳大體分為三個區(qū)域:
圖2 虛擬演播廳場景布局
一部分是直播節(jié)目錄制區(qū)域,用于直播節(jié)目的制作,后方的顯示區(qū)域組件可以根據實際的節(jié)目需求,放置相關的圖文案例,以滿足深度融合節(jié)目信息,也可以使用視頻流軟件完成視頻連線、其他視頻流導入功能實現(xiàn)真實的演播廳功能。
另一部分是錄制節(jié)目區(qū)域,可以用于訪談、介紹類節(jié)目的制作,同理,也需要在該區(qū)域內放置一個顯示區(qū)組件,用于播放視頻、連線等功能。因為顯示區(qū)域是以組件的形式被添加到系統(tǒng)當中,所以使用者可以根據實際情況需要來控制顯示區(qū)域的顯示和隱藏,相較于實體演播廳中常使用的LED 屏幕或是大尺寸的液晶電視來說是極為靈活方便的。
最后一個區(qū)域是單人區(qū)域,可以實現(xiàn)單人評論類節(jié)目的制作。
雖然三個區(qū)域在空間上是獨立的,但是也可以做到在使用上相互連結,只要設定好相應的機位,在制作過程中隨著內容去控制不同機位的切換,實現(xiàn)主持人和嘉賓的實時互動,并且在虛擬環(huán)境中,攝像機的數(shù)量、位置可以不受限制,免去了搖臂、滑軌等大型器材設備在空間上的額外消耗與人力消耗。
因為由三維建模所搭建的應用場景自由度較大,完全可以搭建出一個遠大于實際演播廳使用面積的虛擬環(huán)境,再根據實際情況,對布局進行適當調整,自行搭建符合需求的演播廳布局。
對于虛擬演播廳來說,主播、主持人或演播廳角色的選擇有兩種方法:真人出鏡和虛擬人物出鏡。其中,真人出鏡的拍攝方式是采用真人加綠幕的形式,便于后期的摳像。綠幕放置于被拍攝者后方,綠幕的內容即為虛擬演播廳的背景。在搭建綠幕時要保證被拍攝區(qū)域平整,還需保證綠幕的補光已達到最佳的效果。布光時,使用兩盞LED 燈分別從綠幕左右兩側45 度,以5100K 的色溫射向綠幕,便于在后期摳像過程中將被攝主體與綠幕分離開來,對于拍攝者主體來說,如果拍攝場地允許,建議采用三點式布光法,即主光、側光、輪廓光。
基于剪輯軟件的摳像,即使用傳統(tǒng)剪輯軟件的顏色鍵進行摳像。在錄制結束后,還需將視頻文件進行處理后再導入到演播廳系統(tǒng)中。
基于實時合成技術的摳像,即使用Composure技術進行實時摳像。錄制結束可直接將視頻素材導入到演播廳系統(tǒng)中,無需等待由剪輯軟件渲染,直接將真實世界的圖像或視頻片段與計算機生成的圖像實時渲染為單個無縫混合的圖像。
基于合成材質中的嵌套元素功能,即將視頻素材嵌套在任意元素當中,并最終讓視頻素材呈現(xiàn)在該元素頂部,使用自定義材質通道方法在材質中引用相關元素,達到實時摳像的效果(圖3)。
圖3 自定義材質通道藍圖布局
為了讓完成實時合成的視頻素材進行播放,需要使用藍圖編輯器定義好播放邏輯。使用事件播放(Event Begin Play)節(jié)點實現(xiàn)播放邏輯,即運行系統(tǒng)后,視頻素材獲得運行的消息并相應完成打開源(Open Source)動作,達到播放的效果(圖4)。
圖4 播放功能的藍圖
除了采用真人出鏡的方式,還可以采用虛擬角色出鏡的方式。與真人不同,需要首先考慮虛擬角色交互的方式。虛擬角色的交互是虛擬電影的一個重要內容,如今,虛擬角色則被稱為“虛擬數(shù)字人”。在虛擬演播廳中,可以安排一個虛擬角色來擔任這個演播廳的主播,向觀眾進行語音播報。
“虛擬數(shù)字人”在虛擬演播廳中的定位是“主播”。以《新聞聯(lián)播》為例,主持人在鏡頭畫面中肢體并不會大幅度移動,變化最多的則是頭部動作、面部表情和嘴部動作,也就是說,主持人在直播時頸部以下幾乎不會運動,即使有時會有手臂的運動,也是對觀眾視角無意義的運動。因此在制作虛擬角色的交互系統(tǒng)時,可以把重心放在角色頸部以上的位置。
基于關鍵幀技術利用插值,在角色動畫幀序列中手動定義關鍵幀,由關鍵幀直接自動生成過渡動畫。由于虛擬主播的交互動作是以面部表情和嘴部動作為主,且嘴部的動作要匹配說出的文字,人工定義關鍵幀的技術耗時巨大的特點并不符合“直播”內容形式的實時要求。
基于運動學方法的技術則是根據現(xiàn)實中的運動規(guī)律,提前定義好運動算法函數(shù),綁定虛擬角色骨骼信息。由于虛擬角色并不需要大量的肢體動作,且該種方法生成的運動方式不自然,消耗成本較高且并不能滿足虛擬角色實時渲染的需求,故不采用該方法。
對于動作捕捉方法的技術是通過采集動作捕捉演員的動作信息,實時錄制虛擬角色的動作。虛擬演播廳系統(tǒng)并不會使用OptiTrack光學動作捕捉系統(tǒng)和Leap Motion手勢識別數(shù)據采集方式。上述兩項系統(tǒng)都需要較大的場地并配備專業(yè)的設備器材,所付出的成本和學習時間都不適合小成本演播廳影視制作使用,且主要對虛擬角色的頭部運動和面部表情進行的捕捉,并不需要對肢體運動進行捕捉。
基于Live Link功能與Live Link Face應用相聯(lián)動,可以直接將高品質的面部動畫從采集設備 (手機)實時傳輸?shù)教摂M演播廳系統(tǒng)中的虛擬角色上。Live Link動作捕捉流程如圖5所示。Live Link作為一個通用接口,將外部來源的動畫數(shù)據傳輸?shù)経nreal引擎中。Live Link Face應用的面部追蹤功能則利用了iPhone X 及以上機型的ARkit 和True Depth前置攝像頭提供的面部識別和運動追蹤功能,可以區(qū)分人面部的50多種特定的肌肉位置、拓撲結構和運動變化。
圖5 Live Link動作捕捉流程圖
利用局域網傳輸技術,接收面部數(shù)據的手機可以與虛擬演播廳系統(tǒng)相連接,進行面部建模數(shù)據的傳輸。采集設備(手機)可以與接收端通過無線網絡或有線網絡的方式連接在一個局域網內,以 Live Link Face作為傳輸媒介 (圖6),將面部數(shù)據以網絡數(shù)據的方式傳輸?shù)教摂M演播廳系統(tǒng)中,再通過Live Link傳輸給虛擬角色。
圖6 Live Link設置畫面
基于混合變形的變形幾何體方法,可以為幾何體網絡創(chuàng)建特定的外觀。在一個由多邊形建模生成的人類角色面部,在創(chuàng)造出各種各樣的表情之后,通過混合變形方法,將這些表情混合在一起,以獲得更加豐富、全面的表情內容。在一個特定區(qū)域的幾何體數(shù)量是由控制器來決定的,通常一個幾何體網絡會由不同的控制器來控制一個特定的區(qū)域,每個控制器都會對一個特定的區(qū)域產生一定程度的影響,這樣當控制器發(fā)生移動時,如面部發(fā)生變化時,幾何體網絡能夠平滑地移動,不會出現(xiàn)幾何體斷裂或動作不自然的情況。使用混合變形技術會對正在變形的幾何體網絡產生影響,繼而對其他混合變形產生影響,從而模擬出人類豐富的面部表情(圖7)。Live Link會基于ARkit面部識別技術為捕捉的面部自動生成混合變形動畫,生成的變形動畫需要通過姿勢節(jié)點,將動畫信息傳遞給虛擬角色(圖8)。
圖7 Live Link姿勢節(jié)點設置
圖8 綁定畫面預覽
結合混合變形的理念,人類的頭部運動動作也可以進行混合搭配,混合得到的頭部運動動畫進一步增加了虛擬角色的真實感,通過藍圖編輯器中的“數(shù)據相乘”功能,對兩個運動數(shù)據進行混合,以實現(xiàn)頭部動作混合的功能(圖9),例如:頭部向左轉+頭部向上抬=頭部向左上方抬。
圖9 將頭部旋轉變量與骨骼綁定
在虛擬演播廳系統(tǒng)中的虛擬角色并不是固定不變的,角色的形象與穿著根據節(jié)目需求進行適配,外形上的變化也會讓節(jié)目更具沉浸感,就如同在電視臺中不同的欄目有不同的主持人,主持人在不同的環(huán)境中有不同的穿著。虛擬角色是通過建模軟件生成的。
運用Maya、Blender等傳統(tǒng)三維建模軟件進行角色建模,是從零開始的角色建模,這類傳統(tǒng)的建模方式需要使用者有一定的美術、圖形學基礎,建模所需時間較長,若對角色的外形進行調整,還需要額外再次進行渲染,同時也需要擁有專業(yè)級別的圖形工作站才能快速渲染出高精度的模型。傳統(tǒng)的建模方式自由度更高,角色的外觀更多樣化,但并不太適合小成本演播廳影視制作。
基于云服務器的渲染建模方式,例如Meta Human Creator(圖10),是由服務器渲染好預設角色模型后,再通過視頻流傳輸?shù)姆绞?,呈現(xiàn)在使用者的計算機上。這種建模方式主要依靠網絡傳輸速度,不需要擁有專用的圖形工作站,而且由于已經預渲染好了角色模型和材質,使得建模方式更像是“捏人”,通過調整預設好的各種部位、服裝來達到快速建模的效果,同時也能夠保證角色材質、紋理的精度。
圖10 Meta Human Creator界面
通過模型 (材質)等資產互通的鏈接器,例如Quixel Bridge(圖11)使用鏈接器將模型資產傳入 到虛擬演播廳系統(tǒng)當中,通過Live Link進行綁定(圖12)。
圖11 Quixel Bridge中的Metahumans選項卡
圖12 Metahumans綁定后的結果
面對直播需求時,不能將采集到的視頻以視頻文件的形式導入到虛擬演播廳系統(tǒng)當中,只能以視頻流的形式進行導入。在使用攝像設備進行拍攝時還需要使用視頻采集卡將攝像設備的畫面實時輸入到采集視頻流的計算機中。直播架構圖如圖13。
圖13 直播架構圖
視頻流采集完成后,需要使用推流軟件和流服務器將視頻流以URL的形式推出。
推流服務器分為本地推流服務器和在線推流服務器,其中基于本地服務器的推流服務器可以選擇運行推流軟件的計算機,即將推流軟件與推流服務器部署在同一臺計算機中;也可以選擇與推流軟件在同一局域網中的計算機,即將推流軟件與推流服務器分別部署在兩臺不同的計算機中,以緩解服務器壓力,提高服務器運行質量,提升推流品質。而基于在線服務器的推流服務器,可以使用在線服務器的形式進行部署分發(fā),以更高規(guī)格的硬件設備進行視頻流的分發(fā),但是對網絡環(huán)境的要求更嚴格。
面對小成本演播廳影視制作問題,直播需求量小且對視頻流的質量沒有嚴格限制,使用本地推流服務器更為適合。
基于nginx-rtmp-module所實現(xiàn)的推流服務器(圖14),主要借助RTMP (Real-time Messaging Protocol)協(xié)議和HTTP 協(xié)議完成推流,且其擁有較強的穩(wěn)定性和豐富的功能,配置文件較為簡單,占用資源少,進行簡單的推流地址和串流密鑰設置之后,即可完成推流 (圖15),適合虛擬演播廳系統(tǒng)使用。
圖14 Nginx服務器監(jiān)控界面
圖15 OBS軟件開始推流界面
基于阿里云、騰訊云等云推流服務器,不需要再使用Nginx進行配置,可以免去本地服務器占用的壓力。對于視頻流質量要求嚴格、直播推流需求量大的情況,采用云推流服務器的形式更能滿足需要。
基于流媒體源 (Stream Media Source)插件可以將視頻流傳輸?shù)教摂M演播廳的系統(tǒng)中,在藍圖編輯器中完成播放邏輯與實時合成摳圖 (圖16),以達到直播內容形式的效果。
圖16 使用媒體流播放藍圖
基于視頻串流技術的推流直播、錄播可以將多種不同的視頻流合并串成一個視頻流,經由流服務器分發(fā)出去。將基于Unreal引擎所搭建的虛擬演播廳系統(tǒng)與通過攝像設備采集到的視頻串流在一起,在串流過程中調整各個視頻流的尺寸、聲音大小與轉場特效的設置來模擬真實演播廳所實現(xiàn)的功能,這也是整個虛擬演播廳呈現(xiàn)的最終狀態(tài)。
例如圖17,就是通過攝像設備、兩臺流服務器與Unreal引擎所搭建的虛擬演播廳的運行邏輯圖。
圖17 “面部頭部動作捕捉”直播邏輯圖
本文提出了一種基于虛擬現(xiàn)實技術的演播廳設計的方案,能夠解決小成本演播廳影視制作困難的問題,通過Unreal引擎和OBS串流軟件模擬出了現(xiàn)實演播廳制作視頻界面和直播的效果。隨著虛擬現(xiàn)實技術的發(fā)展,越來越多的影視難題逐漸被解決,拓展了電影、電視的可能性,相信在未來,虛擬現(xiàn)實技術也將在電影電視技術的發(fā)展中,進一步貢獻力量。?