AI成真：虛擬數(shù)字人走進生活

2020-03-10 11:20羅道

電腦報 2020年50期

羅道

虛擬數(shù)字人的誕生

虛擬數(shù)字人，是存在于數(shù)字世界的“人”，通過動作捕捉、三維建模、語音合成等技術(shù)高度還原真實人類，再借助AR/MR/VR等終端呈現(xiàn)出來的立體“人”。在人工智能、虛擬現(xiàn)實等新技術(shù)浪潮的帶動下，虛擬數(shù)字人制作過程得到有效簡化、各方面性能獲得飛躍式提升。

“虛擬數(shù)字人”一詞最早源于 1989 年美國國立醫(yī)學圖書館發(fā)起的“可視人計劃”（Visible Human Project， YHP）。這些“虛擬數(shù)字人”主要是指人體結(jié)構(gòu)的可視化，以三維形式顯示人體解剖結(jié)構(gòu)的大小、形狀、位置及器官間的相互空間關(guān)系，即利用人體信息，實現(xiàn)人體解剖結(jié)構(gòu)的數(shù)字化。主要應用于醫(yī)療領(lǐng)域的人體解剖教學、臨床診療等。

該技術(shù)在發(fā)展中拓展到高保真數(shù)字人的技術(shù)邊界，在電影技術(shù)應用中得到拓展，提升了電影和游戲開發(fā)的商業(yè)機遇，主要應用的技術(shù)包括：照相建模、實時捕捉。

虛擬數(shù)字人的發(fā)展與其制作技術(shù)的進步密不可分，從最早的手工繪制到現(xiàn)在的 CG（Computer Graphics，電腦繪圖）、人工智能合成，虛擬數(shù)字人大致經(jīng)歷了萌芽、探索、初級和成長四個階段。行業(yè)人士稱，不久的將來，現(xiàn)實世界中的每一個地方和事物——每一條街道、每一個燈柱、每一棟建筑物和每一個房間都會在鏡像世界中擁有它的全尺寸“數(shù)字孿生兄弟”。

早期的虛擬歌姬林明美

20 世紀 80 年代，人們開始嘗試將虛擬人物引入到現(xiàn)實世界中，虛擬數(shù)字人步入萌芽階段。該時期虛擬數(shù)字人的制作技術(shù)以手工繪制為主，應用極為有限。1982 年，日本動畫《超時空要塞》播出后，制作方將女主角林明美包裝成演唱動畫插曲的歌手，并制作了音樂專輯，該專輯成功打入當時日本知名的音樂排行榜 Oricon，林明美也成為了世界上第一位虛擬歌姬。

1984年英國人 George Stone 創(chuàng)作出一個名為Max Headroom的虛擬人物，Max擁有人類的樣貌和表情動作，身穿西裝，佩戴墨鏡，曾參演了一部電影，拍攝了數(shù)條廣告，一度成為英國家喻戶曉的虛擬演員。由于技術(shù)的限制，其虛擬形象是由真人演員通過特效化妝和手繪實現(xiàn)。

21 世紀初，傳統(tǒng)手繪逐漸被 CG、動作捕捉等技術(shù)取代，虛擬數(shù)字人步入探索階段。該階段的虛擬數(shù)字人開始達到實用水平，但造價不菲，主要出現(xiàn)在影視娛樂行業(yè)，如數(shù)字替身、虛擬偶像等。電影制作中的數(shù)字替身一般利用動作捕捉技術(shù)，真人演員穿著動作捕捉服裝，臉上點上表情捕捉點，通過攝像機、動作捕捉設(shè)備將真人演員的動作、表情采集處理，經(jīng)計算機處理后賦予給虛擬角色。

《指環(huán)王》中的角色咕嚕就是由 CG 技術(shù)和動作捕捉技術(shù)產(chǎn)生，這些技術(shù)后續(xù)還在《加勒比海盜》《猩球崛起》等電影制作中使用。之后日本還制作了第一個被廣泛認可的虛擬數(shù)字人“初音未來”，初音未來是二次元風格的少女偶像，早期的人物形象主要利用 CG 技術(shù)合成，人物聲音采用雅馬哈的VOCALOID系列語音合成，呈現(xiàn)形式還相對粗糙。

近五年，得益于深度學習算法的突破，數(shù)字人的制作過程得到有效簡化，虛擬數(shù)字人開始步入正軌，進入初級階段。該時期人工智能成為虛擬數(shù)字人不可分割的工具，智能驅(qū)動的數(shù)字人開始嶄露頭角。

智能合成和動作捕捉遷移

通過將捕捉采集的動作遷移至數(shù)字人是目前3D數(shù)字人動作生成的主要方式，核心技術(shù)是動作捕捉

邁克斯·泰格在《生命LIFE 3.0》一書中說，生命3.0是一個由人工智能重塑的時代。在這個時代，我們可以設(shè)計自己的硬件和軟件。

所謂的“像真人”，不外乎是運用“AI合成”技術(shù)。“虛擬主播”通過提取真人主播新聞播報視頻中的聲音、唇形、表情動作等特征，運用語音、唇形、表情合成以及深度學習等技術(shù)聯(lián)合建模訓練而成。

該項技術(shù)要能夠?qū)⑺斎氲闹杏⑽奈谋咀詣由上鄳獌?nèi)容的視頻，并確保視頻中音頻和表情、唇動保持自然一致，展現(xiàn)與真人主播無異的信息傳達效果。但在此之前，出現(xiàn)在大眾媒體上的虛擬主播，多半只有聲音，或者匹配一個量身定制的虛擬形象，比如微軟小冰在東方衛(wèi)視擔任天氣預報員就是如此。

真人演員會穿戴實時動捕的頭盔和設(shè)備去實時地驅(qū)動虛擬的角色，然后在引擎中進行各種效果的技術(shù)整合

要實現(xiàn)這樣的效果，兩大要求缺一不可。其一是高逼真度。要能夠自動生成語音、表情、唇動等信息完全一致的自然視頻，并已達到商用級別。其二是低成本的個性化定制。小數(shù)據(jù)的學習模型，使用少量用戶真實音視頻數(shù)據(jù)，快速遷移生成虛擬的分身模型，快速定制出高逼真度的分身模型。最后，使用時輸入一段文本，即可生成與真人無異的同步音視頻。

除此之外，語音合成引擎和圖像生成引擎也是重要的兩點。在語音合成引擎中，基于用戶少量音頻數(shù)據(jù)，使用語音合成技術(shù)，快速學習用戶音色、韻律、情感等多維度特征，建立輸入文本與輸出音頻信息的關(guān)聯(lián)。

圖像生成引擎，則是使用人臉識別、三維人臉重建、表情建模等技術(shù)對人臉表情動作進行特征學習和建模，建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射，生成輸出分身視頻。

最后，兩大引擎協(xié)作打磨，最終才能實現(xiàn)“AI合成主播”，能夠逼真模擬人類說話的聲音、嘴唇動作和表情，并將三者自然匹配，做到惟妙惟肖，讓機器以更逼真自然的形象呈現(xiàn)在用戶面前。

目前2D、3D 數(shù)字人均已實現(xiàn)嘴型動作的智能合成，其他身體部位的動作目前還只支持錄播。2D、3D 數(shù)字人嘴型動作智能合成的底層邏輯是類似的，都是建立輸入文本到輸出音頻與輸出視覺信息的關(guān)聯(lián)映射，主要是對已采集到的文本到語音和嘴型視頻（2D）/嘴型動畫（3D）的數(shù)據(jù)進行模型訓練，得到一個輸入任意文本都可以驅(qū)動嘴型的模型，再通過模型智能合成。

除了虛擬主播，電影產(chǎn)業(yè)也把虛擬數(shù)字人技術(shù)發(fā)揮到了極致，最常用的是基于 Marker（馬克點）的光學動作捕捉，即在演員身上粘貼能夠反射紅外光的馬克點，通過攝像頭對反光馬克點的追蹤，來對演員的動作進行捕捉。這種方式對動作的捕捉精度高，但對環(huán)境要求也高，并且造價高昂。光學式解決方案比較出名的企業(yè)有英國的Vicon、美國的 OptiTrack 和魔神（MotionAnalysis），國內(nèi)的有Nokov、uSens、青瞳視覺等。

慣性動作捕捉主要是基于慣性測量單元（Inertial Measurement Unit，IMU）來完成對人體動作的捕捉，即把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節(jié)點上，通過算法對測量數(shù)值進行計算，從而完成動作捕捉。這種慣性動作捕捉方案價格相對低廉，但精度較低，會隨著連續(xù)使用時間的增加產(chǎn)生累積誤差，發(fā)生位置漂移。

慣性式動捕方案的代表性企業(yè)有荷蘭的 Xsens，以及國內(nèi)的諾亦騰（Noitom）、幻境、國承萬通等。基于計算機視覺的動作捕捉主要是通過采集及計算深度信息來完成對動作的捕捉，是近些年才興起的技術(shù)。這種視覺動捕方式因其簡單、易用、低價，已成為目前使用的頻率較高的動作捕捉方案，代表性產(chǎn)品有 Leap Motion、微軟Kinect 等。

渲染讓真實性和實時性均大幅提升

人體動態(tài)三維重建一直是計算機視覺、計算機圖形學等領(lǐng)域研究的重點，主要采用攝像機陣列采集動態(tài)數(shù)據(jù)，可重建高低頻幾何、紋理、材質(zhì)、三維運動信息。

光場成像是計算攝像學領(lǐng)域一項新興技術(shù)，它不同于現(xiàn)有僅展示物體表面光照情況的 2D 光線地圖，光場可以存儲空間中所有光線的方向和角度，從而生成場景中所有表面的反射和陰影，這為人體三維重建提供了更加豐富的圖像信息。

近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關(guān)研究，其中 Microsoft 的 108 攝像機 MRstudio已經(jīng)在全球各大洲均有建設(shè);Google 的 Relightable 系統(tǒng)將結(jié)構(gòu)光、動態(tài)建模、重光照技術(shù)集成到一起，在一套系統(tǒng)中包含模型重建、動作重建、光照重建的全部功能;國內(nèi)清華大學、商湯科技、華為等也展開了相關(guān)研究，并取得國際水平的同步進展。

PBR（Physically Based Rendering，基于物理的渲染技術(shù)）渲染技術(shù)的進步以及重光照等新型渲染技術(shù)的出現(xiàn)使數(shù)字人皮膚紋理變得真實，突破了恐怖谷效應?？植拦刃扇毡緳C器人專家森政弘提出，認為人們對機器人的親和度隨著其仿真程度增加而增高，但當達到一個較高的臨界點時，親和度會突然跌入谷底，產(chǎn)生排斥、恐懼和困惑等負面心理。

數(shù)字人恐怖谷效應主要由數(shù)字人外表、表情動作上與真人的差異帶來，其中外表真實感的關(guān)鍵就是皮膚材質(zhì)的真實感，無論是塑料感還是蠟像感都會給人類帶來不適。在 PBR 技術(shù)出現(xiàn)之前，限于相關(guān)軟硬件的發(fā)展程度，所有的 3D 渲染引擎，更多的著重在于實現(xiàn) 3D 效果，在真實感體現(xiàn)方面差強人意。

計算機中的虛擬數(shù)字人在任意虛擬環(huán)境下可以呈現(xiàn)近乎真實的效果，徹底改變了傳統(tǒng)渲染方式通過模擬皮膚復雜的透射反射來計算渲染總會帶來誤差的局面

頭發(fā)制作和渲染已經(jīng)精細到各個層次

PBR 是基于真實物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合，它的關(guān)鍵在于微表面模型和能量守恒計算，通過更真實的反映模型表面反射光線和折射光線的強弱，使得渲染效果突破了塑料感。目前常見的幾款 3D 引擎，如UnrealEngine 4、CryEngine 3、 Unity 3D 5，均有了各自的 PBR實現(xiàn)。

電影里采用最廣泛的的重光照技術(shù)（Relighting）是通過采集模擬多種光照條件的圖像數(shù)據(jù)，測算數(shù)字人表面光照反射特性，并合成出數(shù)字人模型在新的光照下的渲染結(jié)果。該技術(shù)在 2000 年初由南加州大學實驗室創(chuàng)建LightStage 平臺時提出，并開始了相關(guān)研究，目前已經(jīng)經(jīng)過 7代的迭代發(fā)展，已被成功應用到《阿凡達》《復仇者聯(lián)盟》等眾多經(jīng)典影片的角色制作中。國內(nèi)清華大學、浙江大學也都建設(shè)了重光照系統(tǒng)，可以實現(xiàn)高精度人體光照采集與重建。

早期的實時渲染只能選擇高度抽象和簡化過的渲染算法，犧牲了畫面質(zhì)量。隨著硬件能力的提升和算法的突破，渲染速度、渲染效果的真實度、渲染畫面的分辨率均大幅提升，在虛擬人物實時渲染方面已經(jīng)能做到以假亂真，這些都代表著未來的AI發(fā)展方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI成真：虛擬數(shù)字人走進生活

虛擬數(shù)字人的誕生

智能合成和動作捕捉遷移

渲染讓真實性和實時性均大幅提升