簡圣宇
摘 ? 要: 作為社會數(shù)字化轉(zhuǎn)型的伴生產(chǎn)物,“虛擬數(shù)字人”產(chǎn)業(yè)蘊(yùn)含著巨大的市場需求。從經(jīng)濟(jì)到文化教育等各個行業(yè)和領(lǐng)域,都需要能與人類實(shí)現(xiàn)協(xié)同合作的虛擬員工。當(dāng)下的“虛擬數(shù)字人”仍只是些只有外觀而沒有自主思想的數(shù)字人物形象,不過隨著驅(qū)動程序的升級,它們也將對人類社會產(chǎn)生更深的影響。其在“元宇宙”這類智能虛擬平臺搭建起來后還將有更廣闊的應(yīng)用空間,為人類社會增加新的人力資源。ChatGPT的出現(xiàn)帶來了新的契機(jī),它能夠作為未來數(shù)字人的內(nèi)在驅(qū)動而產(chǎn)生關(guān)鍵作用,賦予后者以“類人心智”。盡管如此,在人物形象的自動生成和智能驅(qū)動等方面,虛擬數(shù)字人產(chǎn)業(yè)仍有較多技術(shù)瓶頸問題亟待解決。
關(guān)鍵詞: 人工智能;元宇宙;虛擬數(shù)字人;ChatGPT;類人心智;智能驅(qū)動;智能生成內(nèi)容
中圖分類號:G20 ? 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-8634(2023)04-0045-(13)
DOI:10.13852/J.CNKI.JSHNU.2023.04.005
“虛擬數(shù)字人”是社會數(shù)字化轉(zhuǎn)型的伴生產(chǎn)物,也是構(gòu)建元宇宙的核心要素,目前其相關(guān)產(chǎn)業(yè)正處于自身發(fā)展的初級階段。1 當(dāng)人類文明發(fā)展到一定階段時,必然將自己的存在場域從單純的現(xiàn)實(shí)世界升級到“現(xiàn)實(shí)世界+數(shù)字世界”的狀態(tài)。由于物理世界的容納能力和應(yīng)用場景是有限的,故而必須通過向數(shù)字世界拓展才能打破舊文明的束縛,走向數(shù)字文明。2 構(gòu)成“虛擬數(shù)字人”的三要素包括:自然流暢的語音、廉價快捷生成的外貌,以及智能驅(qū)動支撐的心智內(nèi)核。這其中,心智內(nèi)核是最重要也是最需要技術(shù)積淀的部分。當(dāng)有了GPT模型和“人類反饋強(qiáng)化學(xué)習(xí)”(Reinforcement Learning from Human Feedback,縮寫RLHF)等方案的賦能之后,人工智能的高級自然語言處理能力又上了新的臺階,其運(yùn)用在“虛擬數(shù)字人”身上就使其更具有了“類人”的心智特征。GPT模型的成功案例說明,人類可以通過神經(jīng)網(wǎng)絡(luò)路徑去持續(xù)優(yōu)化算法,從而深入模仿人類認(rèn)知過程。1 而若人工智能能夠產(chǎn)生“心智”(至少是“類人心智”),那也就意味著已知為驅(qū)動內(nèi)核的“虛擬數(shù)字人”也能具備相應(yīng)的能力。
一、內(nèi)涵持續(xù)豐富的“虛擬數(shù)字人”概念
所謂“虛擬數(shù)字人”,即以人類外貌、心智等元素為設(shè)計(jì)底本,借助信息技術(shù)構(gòu)建出的虛擬人物形態(tài)。它可以對人們顯現(xiàn)具體外貌,也可以僅用語音來與人交流,總之,它只要能具有特定的類人的功能,就能被歸入該范疇。“虛擬數(shù)字人”還被稱為“虛擬人”“數(shù)字人”等。英文方面有“Metahuman”“Digital Human”“Virtual Human”“AI being”等稱謂。
對于“虛擬數(shù)字人”概念,相關(guān)調(diào)研機(jī)構(gòu)都提出過自己的定義。如《2021年度我國虛擬數(shù)字人影響力指數(shù)報告》將之定義為:“從技術(shù)層面看,虛擬數(shù)字人(Metahuman)可以理解為是通過計(jì)算機(jī)圖形學(xué)、語音合成技術(shù)、深度學(xué)習(xí)、類腦科學(xué)、生物科技、計(jì)算科學(xué)等聚合科技(Converging Technologies)創(chuàng)設(shè),并具有‘人的外觀、行為、甚至思想(價值觀)的可交互的虛擬形象。”2 次年,該報告第二期又給出了更為寬泛的定義,提出只要“擁有外形、聲音、動作、表情、技能等一個或者多個數(shù)字基因”,都可被視為“虛擬數(shù)字人”,即哪怕是沒有外觀的所謂“只聞其聲、不見其人”的語音助手、智能客服等也屬于此范疇。3
而“量子位白皮書”發(fā)布《虛擬數(shù)字人深度產(chǎn)業(yè)報告(2021)》中的定義是:“存在于非物理世界中,由計(jì)算機(jī)圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等計(jì)算機(jī)手段創(chuàng)造及使用,并具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產(chǎn)物。市面上也多將其稱為虛擬形象、虛擬人、數(shù)字人等,代表性的細(xì)分應(yīng)用包括虛擬助手、虛擬客服、虛擬偶像和主播等。”4
“知乎”發(fā)布的《2022年中國虛擬數(shù)字人行業(yè)研究報告》則將之定義為“具有數(shù)字化外形的虛擬人物”,“與具備實(shí)體的機(jī)器人不同,虛擬數(shù)字人依賴顯示設(shè)備存在,并且擁有類人的生理構(gòu)造(模仿人的形象、肢體構(gòu)造)、人的行為(能說話、能運(yùn)動)以及人的思想(基本的邏輯能力、并可以出輸出內(nèi)容如書寫、與人交談)”。5
嚴(yán)格說來,真正具備諸如“人類交互能力”的“虛擬數(shù)字人”在目前的歷史階段尚未出現(xiàn),即便是有弱人工智能加持的“虛擬鄧麗君”也只是在模擬而非具備人類的認(rèn)知能力。與“虛擬數(shù)字人”所涉的智能驅(qū)動等基礎(chǔ)技術(shù)層面發(fā)展相對穩(wěn)健不同,外觀設(shè)計(jì)由于“投資小、見效快、噱頭足”的緣故,其商業(yè)應(yīng)用領(lǐng)域的發(fā)展頗為迅速。作為產(chǎn)品的所謂虛擬偶像、虛擬主持人和虛擬品牌代言人等就在此時開始走入公眾視野,這些產(chǎn)品雖在智能化程度上還存在諸多欠缺,但已被相關(guān)機(jī)構(gòu)嘗試運(yùn)用在娛樂、營銷、教育等領(lǐng)域。6
自20世紀(jì)后半段起,虛擬數(shù)字人的制作和研究工作呈現(xiàn)出愈加豐富的態(tài)勢,其影響也逐步溢出專業(yè)研究圈子而走向社會大眾。在20世紀(jì)80年代到21世紀(jì)初這段時間里,“虛擬數(shù)字人”還主要是指工具性的數(shù)字化人體模型(digital manikin),7 故而相關(guān)研究主要圍繞著醫(yī)學(xué)、制造和工程學(xué)等學(xué)科進(jìn)行。8 但隨后“虛擬數(shù)字人”的設(shè)計(jì)開始超越傳統(tǒng)用途,向娛樂消遣領(lǐng)域延伸,這就需要讓它們具備相應(yīng)的社交互動能力。為此,21世紀(jì)初開始,研究人員就開始將“智能行為模塊”(intelligent behavior modules)運(yùn)用在“虛擬數(shù)字人”設(shè)計(jì)過程中,以便使它們具備及時的反饋能力。1 雖然那時的軟件資源相對原始,但關(guān)于虛擬數(shù)字人所應(yīng)達(dá)到的技術(shù)要求已基本明確,即具有一定的互動能力和相對逼真的人類外觀。與軀干動作相比,面部表情更能傳遞人類情緒、情感。關(guān)于面部表情的圖形學(xué)研究,甚至可以追溯到赫伯特·蘭菲爾德(Herbert Sidney Langfeld)在1918年所做的研究。2
到了數(shù)字時代,如何升級計(jì)算機(jī)圖像技術(shù)來創(chuàng)造更加靈活多變的虛擬面部表情就更成為一項(xiàng)重要攻關(guān)課題。通過三維面部捕捉技術(shù)(3D facial capture)來制作虛擬面部表情是一種比較高效的手段,借助專業(yè)圖像采集設(shè)備,再加以數(shù)據(jù)建模,就能得到一張可編輯的高清人臉?!皵?shù)字艾米麗項(xiàng)目”(The Digital Emily Project)可謂是這方面的代表(圖1)。3 采集好的真人面部可以生成為三維圖像,根據(jù)需要而動態(tài)生成虛擬面部。如圖1中,A和C所示,程序生成的虛擬面部經(jīng)過調(diào)色等步驟之后,變成了如B和D所示的高清仿真人臉,這張人臉是如此逼真,以至于一般人很難通過肉眼加以識別。
此類圖像采集設(shè)備正在不斷升級中,代表性的如“光舞臺”(Light Stage)就采用了“細(xì)分的二十面體”(Subdivided Icosahedron)方案進(jìn)行全立體的高清拍攝,然后再借助計(jì)算機(jī)圖像進(jìn)行三維重建。4 但從成本控制的角度看,這種依賴面部捕捉和動作捕捉來制作“虛擬數(shù)字人”的路徑恐難持久發(fā)展,而只會是一種過渡性的、小眾性的制作方式。因?yàn)樗某杀荆ㄋ钑r間、人力、財(cái)力)都太高,不符合“盡可能自動化生成”這一壓縮成本模式的要求。
相比之下,虛幻引擎(Unreal Engine)推出的應(yīng)用程序(MetaHuman Creator)則聚焦于不借助掃描就直接生成高清“虛擬數(shù)字人”的道路,讓用戶在數(shù)字平臺上設(shè)計(jì)出具有逼真的“面部表情+肢體動作”的立體數(shù)字人,其甚至可以將虛擬人物面部上包括毛孔和皺紋等諸多細(xì)節(jié)部分呈現(xiàn)出來。而在平面構(gòu)圖方面,Stable Diffusion WebUI平臺的出現(xiàn)將“文本生成圖片”模式推上了新臺階,特別是技術(shù)玩家們又琢磨出了基于此平臺再使用LoRA模型文件加上tag標(biāo)簽等搭配組合模式,通過詞句提示的方式生成一系列高清照片級別的人物圖像以供篩選,這就直接將智能繪畫從所謂“二次元”提升到了“三次元”的層次。5 而“輸出指令+AI生成”的方式如果得到進(jìn)一步優(yōu)化,將成為一種較佳的“虛擬數(shù)字人”生產(chǎn)方式。以AI模型社區(qū)Civitai里展示的繪畫作品為例(圖2),6 A是通過發(fā)出“超寫實(shí)、長發(fā)、長袖”(photorealistic,long hair,Long sleeve)等正向提示(Prompt),以及去掉“最差畫質(zhì)、老年斑、多余的手指”(worst quality,age spot,extra finger)等否定提示(Negative prompt),來引導(dǎo)模型生成一位長袖藍(lán)衣少女形象;而B也是通過發(fā)出“上鏡的英俊成熟男性、穿著背心和牛仔褲、留著濃密的胡須肌肉、長著凌亂的棕色卷發(fā)”(photogenic handsome mature man in tank-top and denim jeans with full beard muscular,with long curly messy brown hair)等正向提示,以及去掉“最差畫質(zhì)、怪誕、畸形”(ugly,grotesque,malformed)等否定提示,來引導(dǎo)模型生成一位穿牛仔褲的男性形象。插件ControlNet還進(jìn)一步提升了人物形象姿態(tài)控制的精確度。1 這些由模型設(shè)計(jì)生成的形象雖然在具體生成時還存在“多手指”、畸形等問題,需要再做二次篩選調(diào)整,但外觀確已達(dá)到了能以假亂真的水準(zhǔn),屬于“虛擬數(shù)字人”片面外觀生成方式的一次重要進(jìn)步。若將來視頻的幀也能通過特定模型以指令輸出的方式自動生成,那么對于“虛擬數(shù)字人”制作的廉價化走向?qū)⒂芯薮笸苿幼饔谩?/p>
隨著技術(shù)的發(fā)展,“虛擬數(shù)字人”的種類也在逐漸增多。若按照其歷史發(fā)展順序做大致分類的話,“虛擬數(shù)字人”應(yīng)當(dāng)包括但不限于以下7種類型:
1.“數(shù)字活體”
“數(shù)字活體”(Digital Human Models)即以數(shù)字化形式存在,用以模擬真實(shí)人體的形態(tài)、機(jī)能等特征的虛擬人體。這種“數(shù)字活體”的開發(fā)側(cè)重于其“器官”的虛擬仿真程度,因?yàn)樾枰柚@些“器官”對實(shí)驗(yàn)過程的系列反應(yīng)來研究真實(shí)人體在同等情況下可能出現(xiàn)的狀況,從而更安全、高效地開發(fā)相關(guān)的醫(yī)療、工業(yè)產(chǎn)品。比如醫(yī)學(xué)用途的虛擬人,被開發(fā)出來以用作醫(yī)療培訓(xùn)、手術(shù)模擬,乃至藥物開發(fā)。相關(guān)制藥公司、醫(yī)院等機(jī)構(gòu)先按照患者人體模型構(gòu)建出一個虛擬人,然后通過對這個虛擬人進(jìn)行參數(shù)測試來預(yù)估藥物和治療手段可能在真實(shí)人體身上產(chǎn)生的反應(yīng),車企的汽車碰撞試驗(yàn)也開始引入“數(shù)字活體”來進(jìn)行評估。2 這方面的工作開展得很早,美國方面在20世紀(jì)80年代就開啟了“可視人類計(jì)劃”(Visible Human Project),3 歐洲、日本等隨即跟著推進(jìn),中國也在國家“863”計(jì)劃中列入“數(shù)字化虛擬中國人”項(xiàng)目,各國也持續(xù)在這一領(lǐng)域取得新的成績。4 “數(shù)字活體”雖然在概念屬性上也屬于“虛擬數(shù)字人”的范疇,但終究不是一種有完整形象和“靈魂”的“人”,不具備主體性,而只是一種工具性的數(shù)字客體。
2.“數(shù)字化身”
“數(shù)字化身”(Digital Avatar)即人類在虛擬世界里的數(shù)字映像?!皵?shù)字化身”在數(shù)字場域的活動受主人在物理場域的限制,該形態(tài)的“虛擬數(shù)字人”的主體性是主人賦予的,而非通過算法等人工智能等技術(shù)來逐步進(jìn)化形成的。5 如在現(xiàn)階段里,游戲玩家在游戲世界里有著自己的映像,未來元宇宙出現(xiàn)后每個人也將在其中擁有自己的映像,這種映像的一舉一動都與現(xiàn)實(shí)中的人類相對應(yīng)。當(dāng)技術(shù)發(fā)展到一定階段時,或許每個人都將在元宇宙或類似虛擬平臺上擁有一個自己的“數(shù)字化身”,以所謂“原生主人+數(shù)字孿生副本”的模式而存在。1 在基于區(qū)塊鏈技術(shù)的通證經(jīng)濟(jì)環(huán)境下,這個數(shù)字化身將具有唯一性和不可更改性,它可以作為我們在數(shù)字世界的映射,以我們的身份開展各種活動。
3.“數(shù)字人物形象”
“數(shù)字人物形象”(Digital Characters)即模仿人類外觀,加以數(shù)字建模而成的各種人物形象。通常數(shù)字人物形象不需要以現(xiàn)實(shí)生活中的真實(shí)人物為模版來構(gòu)建,如“阿麗塔”這種電影中的人物形象,以及開始在現(xiàn)實(shí)中陸續(xù)出場的虛擬主播、虛擬偶像、虛擬主持人等都是由設(shè)計(jì)師自由創(chuàng)作出來的形象。這類“虛擬數(shù)字人”的主要功能就是以具有親和力的人形面貌出現(xiàn),在社交、展演類領(lǐng)域提供服務(wù)。受近幾年短視頻熱潮的帶動,以及“二次元”等亞文化的助推,虛擬形象備受關(guān)注和熱捧。產(chǎn)生了諸如被冠名為“一個會捉妖的虛擬美妝達(dá)人”的“柳夜熙”,號稱“會彈琴的虛擬大學(xué)生”的“華智冰”,以及僅以形象照作為露臉形式,但已經(jīng)跟法國嬌蘭、路易斯威登等資方在廣告代言和宣傳方面合作的“AYAYI”等數(shù)字網(wǎng)紅。2 照此趨勢,日后每一個場館(博物館、美術(shù)館、圖書館等)或?qū)TO(shè)一個數(shù)字導(dǎo)游,借助類似于AR眼鏡的設(shè)備,以“視覺疊加”的形式立體呈現(xiàn)在參觀者眼前,為他們提供講解、翻譯等服務(wù)。雖然受技術(shù)局限,它們?nèi)詫儆谌鄙僦悄茯?qū)動加持而沒有自主互動能力的“數(shù)字木偶”,但正是它們讓“虛擬數(shù)字人”成了目前被公眾高頻率接觸到的熱詞。
4.“數(shù)字仿象”
“數(shù)字仿象”(Digital Mimics)是一種特殊的數(shù)字人物形象,即根據(jù)特定人物(主要是名人)的外貌加以數(shù)字建模而成的人物形象。與“阿麗塔”之類不以現(xiàn)實(shí)人物為依據(jù)而新設(shè)計(jì)出來的人物形象不同,“數(shù)字仿象”乃是根據(jù)已有的名人構(gòu)建的“仿象”,比如《速度與激情7》里借助“AI換臉”技術(shù)制作出的已故演員保羅·沃克、《終結(jié)者:創(chuàng)世紀(jì)》里1984年青年施瓦辛格形象、《雙子殺手》里虛擬的年輕版威爾·史密斯,以及因?yàn)閰⒓咏K衛(wèi)視2022年跨年演唱會等活動而引發(fā)關(guān)注的“數(shù)字鄧麗君”,還有2023年《流浪地球2》里被復(fù)原的已故演員吳孟達(dá)的形象等。如此林林總總,反映了新科技對身體和媒介關(guān)系的影響進(jìn)一步加深。如果未來構(gòu)建一個元宇宙數(shù)據(jù)生態(tài)系統(tǒng),再獲得相應(yīng)授權(quán)把這些已逝人物設(shè)置進(jìn)去,那么他們的形象甚至可以達(dá)到所謂數(shù)字永生的效果。雖然這些只是他們的“數(shù)字仿象”而非本人,但在效果層面上的確能具有部分的相應(yīng)功用。
5.“數(shù)字偽像”
“數(shù)字偽像”(Digital Deepfake Characters)即經(jīng)過機(jī)器算法制作出的深度偽造人物形象。由于“深度偽造”(Deepfake)的稱謂具有顯著的貶義,也有學(xué)者認(rèn)為應(yīng)用更為中性的“深度合成”的稱謂來取代,3 中國國家網(wǎng)信辦也傾向于使用“深度合成”這一稱謂。4 2016年時,德國紐倫堡大學(xué)發(fā)布了可以將視頻里的人物面部進(jìn)行“表情移植”的“Face2Face”應(yīng)用程序。當(dāng)應(yīng)用程序的開發(fā)和使用者把經(jīng)過深度偽造的美國總統(tǒng)奧巴馬等名人的演講發(fā)布出來后,學(xué)界和大眾才意識到這種技術(shù)潛在的危險性。因?yàn)檫@種真假莫辨的“數(shù)字偽像”很容易被別有用心的人用來操縱輿論,帶來不可預(yù)料的后果。5 而如今MidJourney V5生成的那種照片級逼真程度的虛擬人物形象,讓人已難以通過肉眼分辨其真假了?!吧疃葌卧臁弊鳛椤吧疃葘W(xué)習(xí)”和“偽造”的結(jié)合,其技術(shù)層次在人工智能的賦能下不斷升級迭代,如今不但可以篡改視頻里的人物面部,還可以生成偽造的肢體動作,乃至模仿特定人物的聲音,并且達(dá)到聽音模聲與面部表情乃至唇形都同步的程度。6 正如現(xiàn)實(shí)世界充滿了各種類型的犯罪一樣,未來“虛擬數(shù)字人”的應(yīng)用逐漸普及之后,也將出現(xiàn)以“數(shù)字偽像”為代表的諸多欺詐現(xiàn)象,這都有待相關(guān)機(jī)構(gòu)設(shè)計(jì)出相應(yīng)措施加以應(yīng)對。除了前述的外觀偽造之外,還可能出現(xiàn)智能交流帶來的思想誤導(dǎo)問題,比如ChatGPT、Google Bard這類GPT模型所展現(xiàn)出“一本正經(jīng)地胡說八道”的可怕表達(dá)能力,不得不讓人對日后“虛擬數(shù)字人”的具體運(yùn)用產(chǎn)生警惕。1 因?yàn)樵谏墒饺斯ぶ悄芗映窒?,“虛擬數(shù)字人”同樣可能也用不容置疑的權(quán)威口吻,將大量虛假或錯誤的信息以大眾很難分辨的形式敘述出來,從而對大眾進(jìn)行一系列后果難料的誤導(dǎo)。2 信任,是對話的一項(xiàng)基本條件,人際對話如此,人機(jī)對話亦概莫能外。但目前GPT模型尚不具備讓人信任的品質(zhì),所以充分的“人機(jī)對話”也尚未真正存在。
6.“數(shù)字副本”或“數(shù)字幽靈”
“數(shù)字副本”或“數(shù)字幽靈”(Digital copy or Digital Ghost)特指在“弱人工智能”條件下,人類活動在數(shù)字世界里留下的印跡。這些印跡是可以如同影子一樣將它主人的行為和思想的真實(shí)輪廓還原出來的。
與“數(shù)字仿象”概念側(cè)重于“虛擬數(shù)字人”的面貌、身體和聲音等外在特征不同,“數(shù)字副本”概念將目光更多地投在了行為、觀念、思想等內(nèi)在特征上(當(dāng)然,隨著技術(shù)的發(fā)展,兩者是可以合二為一的)。網(wǎng)民在數(shù)字世界會留下他/她的“數(shù)字足跡”(Digital Footprint),而隨著技術(shù)的不斷升級,這種“數(shù)字足跡”終將升級到“數(shù)字副本”的程度。如今某些游戲會將人們在虛擬平臺上面的行為記錄并且儲存下來,為玩家構(gòu)建一個專屬副本。3 學(xué)界已有學(xué)者開始探討個體生命去世后如何處理其數(shù)字副本的問題。4 當(dāng)然《黑鏡》等科幻影視劇里設(shè)想出的未來技術(shù),還讓人產(chǎn)生一種現(xiàn)實(shí)擔(dān)憂:我們是否會在未被告知、自己未察覺的情況下,被建立起一個“數(shù)字副本”?比如,某些機(jī)構(gòu)是否有可能根據(jù)人們的數(shù)字足跡,在其平臺上構(gòu)造出能夠高度還原人們個體性格、行為偏好、消費(fèi)習(xí)慣等特征的“數(shù)字副本”,然后根據(jù)這個影子來更深入地針對人們進(jìn)行定量研究,運(yùn)用大數(shù)據(jù)來預(yù)判人們的意圖,最終把人們的行為模式琢磨得比他們自己更透徹,以具有可親外觀的“個性化算法”的形式,更細(xì)致地、實(shí)時互動式地操控人們。5 已經(jīng)有企業(yè)借助“數(shù)字足跡”監(jiān)測用戶行為,如“劍橋分析”公司就通過對用戶點(diǎn)贊行為進(jìn)行數(shù)據(jù)挖掘而針對用戶心理制定出相應(yīng)的操控策略。6 一旦“數(shù)字副本”可以容納諸如人臉、指紋、虹膜,乃至指靜脈、DNA等生物特征的關(guān)鍵個人隱私數(shù)據(jù),它所帶來的潛在安全風(fēng)險就更大,因此必須有更為周全的安全措施來加以防范。
如果將死亡定義為“自我意識的消失”,1 那么數(shù)字化記錄很可能是一種“永生”的途徑。雖然現(xiàn)在距離掌握真正的“數(shù)字永生”技術(shù)還很遙遠(yuǎn),其至多還只是個科幻概念,但學(xué)界對此的研討已相當(dāng)火熱。2 如果日后“元宇宙”應(yīng)用在這方面取得相應(yīng)的進(jìn)展,那么我們每個人都很可能在其中擁有一個專屬“數(shù)字副本”,當(dāng)我們抵達(dá)壽命終點(diǎn)之后,那個擁有我們諸多個人信息的數(shù)字化身就將成為數(shù)字幽靈。這雖然聽起來頗有些驚悚,但如果能夠?qū)崿F(xiàn),就可以將社會各領(lǐng)域杰出人士身上對人類發(fā)展最具價值的部分提取出來加以數(shù)字化,從而讓后人仍然能夠在與他們的數(shù)字幽靈對話中獲得啟迪,從而站在巨人的肩膀上創(chuàng)造社會價值。試想一下,如果在達(dá)·芬奇、愛因斯坦、霍金等思想巨人活著時就為他們逐步構(gòu)建其“數(shù)字副本”,他們留下的“數(shù)字幽靈”將給后世帶來很大的寶貴精神財(cái)富。
7.“數(shù)字人類”
“數(shù)字人類”(Digital Human)即未來科技發(fā)展更加進(jìn)步,最終造出的具有與自然人類相同智能甚至超越自然人類智能的數(shù)字生靈,它已成為具有“自我意識”的生命體。
這已是一種在賽博空間里演化出的所謂“智能的、有感情的、活的虛擬人”,3 它跟自然人類的區(qū)別只在于兩者分別存在于數(shù)字世界和物理世界。這種“數(shù)字人類”可以是基于現(xiàn)實(shí)世界里的個體而生成的對應(yīng)物,也可以是不基于現(xiàn)實(shí)模板,只是在數(shù)字世界里按照自己的邏輯路徑生成的“生命體”。科幻片《流浪地球2》里設(shè)計(jì)了一個“數(shù)字生命計(jì)劃”的內(nèi)容,即上傳意識和創(chuàng)造“數(shù)字人類”,但要實(shí)現(xiàn)該計(jì)劃,恐非電影里所描述的那么順利。作為一種對“數(shù)字人類”未來前景略帶科幻色彩的展望,人們可以看到由于虛擬世界遵循著與現(xiàn)實(shí)世界不同的運(yùn)行邏輯,故而虛擬世界的“時間”也可以通過參數(shù)的變化進(jìn)行調(diào)整,在某種程度上擺脫現(xiàn)實(shí)時間對人類的束縛,讓數(shù)字世界里的“人類”以超越人們?nèi)舾蓚€數(shù)量級的速度去學(xué)習(xí)、積累和進(jìn)化,那時的人類文明很可能以今人無法想象的速度演化。
還需說明的是,筆者所列出的類型僅僅是一種粗略的劃分,而非在內(nèi)涵上能夠完全自足的嚴(yán)謹(jǐn)學(xué)術(shù)概念。因?yàn)檫@些類型除了“數(shù)字活體”之外都不是孤立的存在,彼此之間并不存在絕對的界限,只是根據(jù)具體使用場景進(jìn)行相對劃分,并且隨著日后的技術(shù)升級,它們也很可能會彼此融合并且產(chǎn)生新的類型。比如“數(shù)字化身”與“數(shù)字副本”具有同源關(guān)系;“數(shù)字影子”在用戶去世之后又會變成“數(shù)字幽靈”;“數(shù)字人物形象”和“數(shù)字仿象”之間在內(nèi)涵上存在諸多重疊;“數(shù)字仿象”和“數(shù)字偽像”所憑借的形象合成技術(shù)多為同源;“數(shù)字活體”也可以升級到“數(shù)字副本”的層次。
二、“虛擬數(shù)字人”所包含的應(yīng)用領(lǐng)域和發(fā)展前景
“虛擬數(shù)字人”概念因當(dāng)下的虛擬偶像、虛擬主持人和虛擬品牌代言人等“數(shù)字人物形象”的崛起而走紅。然而,從更長的歷史維度觀之,當(dāng)下泛娛樂業(yè)的這些應(yīng)用都尚歸屬于淺層次范疇?!疤摂M數(shù)字人”最重要的潛在生產(chǎn)力價值,在于其能成為現(xiàn)實(shí)人力資源,從而為推動現(xiàn)實(shí)世界的生產(chǎn)力發(fā)展而服務(wù)。換言之,發(fā)展“虛擬數(shù)字人”產(chǎn)業(yè)的根本目的,乃是希望跨域調(diào)動包括它們在內(nèi)的來自數(shù)字世界的力量去推動人類文明進(jìn)步,故而其未來的應(yīng)用前景將圍繞著這一根本目的而展開。
在人類文明數(shù)字化轉(zhuǎn)型的歷史進(jìn)程中,如何實(shí)現(xiàn)跨域調(diào)動人力資源并且開展更高效的協(xié)同合作是一項(xiàng)非常關(guān)鍵的研究內(nèi)容。千百年來,人們?yōu)榱俗畲笙薅鹊赝卣棺约旱纳婵臻g并在擴(kuò)大的生存空間里盡可能地調(diào)度起更多的人力資源進(jìn)行社會建設(shè),一直在嘗試?yán)酶鞣N聯(lián)合模式增強(qiáng)自身的集體凝聚力。最初是通過氏族,然后是借助宗教、國家,以及各種基礎(chǔ)設(shè)施,20世紀(jì)末開始基于互聯(lián)網(wǎng)構(gòu)建起更為龐大的協(xié)同合作方式。隨著虛擬現(xiàn)實(shí)技術(shù)的發(fā)展,21世紀(jì)還出現(xiàn)了“元宇宙”這類數(shù)字平臺,它具有兩大潛力:一是把身處全球不同區(qū)域的人通過VR眼鏡等設(shè)備集成在一個虛擬空間里協(xié)同工作,二是運(yùn)用虛擬世界各種智能場景為現(xiàn)實(shí)服務(wù)。故而Epic首席執(zhí)行官斯威尼(Tim Sweeney)提出:“元宇宙作為一種未來媒介,能夠成為比現(xiàn)存的任何封閉系統(tǒng)都更高效的引擎,推動經(jīng)濟(jì)效率提升。”1 雖然“元宇宙”的真正建成還是非常遙遠(yuǎn)的事情,F(xiàn)acebook轉(zhuǎn)型為Meta之后也遭遇了較大波折,2 不過在人類數(shù)字化轉(zhuǎn)型大趨勢下,“元宇宙”這種數(shù)字平臺仍然是在未來世界必然出現(xiàn)的事物,因?yàn)榭缬騾f(xié)作帶來的生產(chǎn)潛力確實(shí)相當(dāng)誘人。
如上所述,所謂“跨域”,不僅包括要將現(xiàn)實(shí)世界里不同區(qū)域的資源統(tǒng)攝起來形成巨大合力,而且還包括要將數(shù)字世界的虛擬資源調(diào)取出來,“憑空”增加現(xiàn)實(shí)世界里可資調(diào)配的資源。3 作為社會數(shù)字化轉(zhuǎn)型伴生產(chǎn)物的“虛擬數(shù)字人”正是由此登場,公眾需“從實(shí)向虛”地以“數(shù)字化身”的“虛擬數(shù)字人”形式進(jìn)入數(shù)字世界開展工作和娛樂活動,同時也需要把可能的人力資源從數(shù)字世界里召喚出來,成為現(xiàn)實(shí)世界里的日常工作者。4 試想,當(dāng)用于驅(qū)動虛擬員工的技術(shù)在未來能升級到一定程度時,如果有一家企業(yè)乃至一個國家能生產(chǎn)出相當(dāng)于成千上萬個人類員工勞動力的虛擬員工,那么將讓該企業(yè)或國家產(chǎn)生多么大的人力資源優(yōu)勢?這種虛擬員工對生產(chǎn)力的推動作用,就相當(dāng)于昔日的蒸汽機(jī)(17世紀(jì)末蒸汽機(jī)被發(fā)明出來之后,它讓普通工廠陡然間具備了比之前的古代社會多出幾十甚至幾百倍的生產(chǎn)力,于是在隨后的18世紀(jì)引發(fā)了導(dǎo)致人類社會深刻變革的第一次工業(yè)革命)。由于其所具備的重要生產(chǎn)價值及潛力,“虛擬數(shù)字人”技術(shù)在未來甚至有可能成為關(guān)系國運(yùn)的具有戰(zhàn)略級意義的產(chǎn)品。
對個人用戶而言,“虛擬數(shù)字人”技術(shù)除了前述的應(yīng)用場景之外,接下來還將以更為貼身的“數(shù)字助手”形式深入日常生活。就像如今的人們從小接受貓狗等家庭寵物的陪伴一樣,日后的人們可能將在虛擬人物陪伴下成長起來,習(xí)慣了在日常生活中也有這些數(shù)字助手的日夜陪伴?!皵?shù)字助手”扮演的具體身份可依據(jù)其功能差異分為不同類型,如“數(shù)字保姆”“數(shù)字秘書”“數(shù)字護(hù)士”“數(shù)字伴侶”等,其共同點(diǎn)皆以為用戶提供個性化服務(wù)為核心。這些能有效分擔(dān)人類工作的“數(shù)字助手”,不僅能重塑人類的日常生活,并且還將引發(fā)一場對傳統(tǒng)工作制度的顛覆性變革。5 與“虛擬偶像”“虛擬主播”往往只是作為“網(wǎng)紅”曇花一現(xiàn)且更側(cè)重于單一的娛樂功能、用戶相對小眾不同,“虛擬助手”從一開始就是作為一個日常生活中常態(tài)化使用的貼身伙伴來開發(fā)的產(chǎn)品,所以,它面對的乃是一個極其龐大的用戶人群,擁有著多面向、立體性、持續(xù)性的現(xiàn)實(shí)需求。雖然以現(xiàn)在的技術(shù),“虛擬助手”的智能化程度及其功能相當(dāng)有限,但是按照該應(yīng)用技術(shù)發(fā)展邏輯,其逐步走向階段性成熟只是時間問題。
具體到當(dāng)下的公司而言,即便只是技術(shù)尚未成熟的“準(zhǔn)虛擬數(shù)字人”,也能成為一名獨(dú)特的數(shù)字員工:它要么是一個沒有可能發(fā)生緋聞劣跡,甚至不會變老的形象代言人,要么是一個24小時在線的工人,其在面對無盡的工作時不會產(chǎn)生厭惡情緒,更不會有肉身疲憊之感,可以日夜不眠地持續(xù)工作。須知,人工智能不受體能、情緒等人類無法擺脫的肉身束縛,且在特定領(lǐng)域內(nèi)的學(xué)習(xí)和工作能力遠(yuǎn)超人類。比如,對于人類來說頗為艱難的背誦工作,在擁有強(qiáng)大信息儲存和處理的人工智能看來就是小菜一碟,這種工具性的強(qiáng)大讓人類只能望洋興嘆。未來一旦“虛擬數(shù)字人”背后的智能驅(qū)動技術(shù)升級到一定高度,那么它們將具備無可比擬的勞動力優(yōu)勢。6 有研究機(jī)構(gòu)甚至認(rèn)為,人工智能很可能在一個世紀(jì)左右的時間里替代人類所有工作,重塑人類文明。1
三、“虛擬數(shù)字人”所面對的技術(shù)瓶頸
目前“虛擬數(shù)字人”所面臨的技術(shù)瓶頸問題主要來自兩個方面:一是作為外觀建模的人物形象生成方面,二是作為內(nèi)在支撐的智能驅(qū)動方面。相較而言,前者面對的主要是應(yīng)用層面的內(nèi)容,所需要的技術(shù)相對更容易研發(fā),每隔三至五年時間就會出現(xiàn)階梯式突破。后者則相對困難許多,面對的是基礎(chǔ)層面的研發(fā),需要長時間的積累,在十幾年甚至幾十年的時間里能有一定的突破就已經(jīng)是可喜之事。2 OpenAI的GPT系列模型從2018年的1.0版本到現(xiàn)在的3.5版本僅用了5年,這在此領(lǐng)域已算是“神速”了。然而如果算上該模型1.0版本推出前的理論準(zhǔn)備期,以及接下來還需持續(xù)迭代所消耗的時間,該模型從設(shè)想到初步成熟其實(shí)也需相當(dāng)長的時間,絕非一蹴而就的短期行為。3
科技是“虛擬數(shù)字人”的底層支撐,從基礎(chǔ)科學(xué)研究到具體應(yīng)用等都對“虛擬數(shù)字人”的迭代升級起著全方位的決定性作用。特別是人工智能的發(fā)展與“虛擬數(shù)字人”有著高度綁定的共生關(guān)系。就人工智能的發(fā)展歷程而言,距離初步成熟的階段尚為遙遠(yuǎn)。而人工智能技術(shù)的不成熟,也限制了當(dāng)下虛擬人的發(fā)展。
當(dāng)下的“虛擬數(shù)字人”產(chǎn)業(yè),其實(shí)是指基于當(dāng)下技術(shù)水平的泛文化產(chǎn)業(yè),包括娛樂、教育和服務(wù)等領(lǐng)域,這些領(lǐng)域需要大量的虛擬偶像、虛擬主持人、虛擬教師、虛擬導(dǎo)游導(dǎo)購、虛擬助手等工作角色。該產(chǎn)業(yè)面臨“外觀”和“內(nèi)核”的技術(shù)問題,這兩個問題其實(shí)也對應(yīng)著該產(chǎn)業(yè)的短期和長期問題。所謂“外觀”技術(shù)問題,即讓“虛擬數(shù)字人”在外觀(面部表情和肢體動作)的逼真度和靈活度等方面達(dá)到一定的水準(zhǔn),從而使得公眾在視覺上接受它們。
而所謂“內(nèi)核”技術(shù)問題,則是指讓“虛擬數(shù)字人”具備一定的自主思維能力,不依賴于人類的實(shí)施控制就能相對獨(dú)立地做出判斷和決策,乃至采取行動。即便它的自主思維能力無法達(dá)到科幻電影里與人類無異的程度,至少也需能夠“從形式上模擬意識”,4 具備基于場景與人們進(jìn)行互動、協(xié)助人類開展日常工作的基本能力,由此而能作為新的人力資源參與到社會建設(shè)活動當(dāng)中。有學(xué)者將“完成復(fù)雜目標(biāo)的能力”作為評判“智能”的標(biāo)準(zhǔn),5 若想“虛擬數(shù)字人”達(dá)到此標(biāo)準(zhǔn),作為內(nèi)驅(qū)的人工智能技術(shù)在場景認(rèn)知、互動反饋、機(jī)器學(xué)習(xí)等一系列方面需取得突破性進(jìn)展。只有當(dāng)“內(nèi)核”技術(shù)問題得到有效解決,“虛擬數(shù)字人”才能對社會生產(chǎn)力產(chǎn)生實(shí)質(zhì)性影響。
作為虛擬人物形象需要攻克的難關(guān)之一,人物面部表情的生動化問題一直在困擾數(shù)字娛樂業(yè)的設(shè)計(jì)者。人類面部表情極其豐富,在引入智能算法之前,動畫人物形象的面部表情往往相當(dāng)僵硬。公眾很難在面對這樣一張沒有表情的木偶臉時,產(chǎn)生發(fā)自內(nèi)心的情感共鳴。經(jīng)過數(shù)十年的技術(shù)積淀之后,這方面的問題已有很大改觀,借助AI深度學(xué)習(xí)算法不但能讓面部數(shù)字建模愈加精致,甚至還解決了面部表情與聲音不同步的問題。英偉達(dá)開發(fā)出的“Omniverse Audio2Face”程序就相當(dāng)友好地解決了虛擬人面部表情與聲音不同步的問題。這款應(yīng)用程序可以僅僅依據(jù)音頻就即時生成與之匹配的面部表情模型。而小冰公司研發(fā)的“小冰深度神經(jīng)網(wǎng)絡(luò)渲染技術(shù)”(Xiaoice Neural Rendering,縮寫XNR)可以將“數(shù)字孿生”類型的虛擬人在容貌表情、肢體動作等外觀的自然流暢度方面提升到以假亂真的程度。6
在“虛擬數(shù)字人”表情和動作的制作方面,除了需要克服具體制作環(huán)節(jié)上的技術(shù)問題之外,還需使得這種制作工作更具性價比,以便符合“高效、價廉和可批量化生產(chǎn)”這三項(xiàng)基本的市場要求。艾倫·庫伯(Alan Cooper)等學(xué)者曾提出這樣一個關(guān)于數(shù)字產(chǎn)品的悖論:創(chuàng)造出計(jì)算機(jī)等硅機(jī)設(shè)備,原本是為了讓人類更加省事省力,然而人類僅僅是為了能夠恰當(dāng)?shù)厝ナ褂迷O(shè)備里的軟件就必須被迫投入大量的時間精力。1 這個悖論在“虛擬數(shù)字人”生產(chǎn)領(lǐng)域現(xiàn)在也未能消除:創(chuàng)造“虛擬數(shù)字人”是為了節(jié)約人類工作的時間,然而創(chuàng)造和維護(hù)它們的過程本身就在極大消耗著人類自己的時間。
相對于之前粗糙的建模技術(shù)而言,晚近時段誕生的這類虛擬人物的面部表情和身體生成方式確已頗為先進(jìn),然而如果按照未來工業(yè)級“元宇宙”建設(shè)的要求而言,則仍舊相當(dāng)落后。因?yàn)楫?dāng)下的虛擬人物面部建模仍然離不開相關(guān)設(shè)計(jì)師的參與,仍非人工智能自動生成,而“動態(tài)捕捉技術(shù)”也依然需要真人穿戴信息捕捉設(shè)備去具體行動,此種建模形式屬于“手工作坊”式的生產(chǎn),達(dá)不到產(chǎn)業(yè)化生產(chǎn)的規(guī)?;疁?zhǔn)。以當(dāng)下“柳夜熙”“華智冰”等所謂虛擬偶像為例,它們雖然號稱是“人工智能虛擬人”,但它們的外觀建模仍須經(jīng)由相關(guān)設(shè)計(jì)師手工完成,而且在虛擬程度上只能算是“半個”而非“整個”。它們只有臉部是智能建模的,身體仍然是人類替身用真身去扮演。“創(chuàng)壹視頻”制作“柳夜熙”的方式是真人扮演和后期換臉。作為由“清華大學(xué)計(jì)算機(jī)系、北京智源研究院、智譜AI和小冰公司聯(lián)合培養(yǎng)”的“華智冰”,僅采用省力的方式做AI換臉,后者為此還一度引起過輿論風(fēng)波。2 這些所謂虛擬人不僅只能算是“數(shù)字人物形象”,而且還只是局部“數(shù)字人物形象”,并不是交由程序自動生成的充分“數(shù)字人物形象”。
實(shí)際上,就當(dāng)下已有的技術(shù)儲備而言,形象生成這類外圍問題并非不可克服的障礙。前述“光舞臺”(Light Stage)那樣能提供高清立體人像建模的“球狀分布燈”(LED sphere)拍攝方法,如今也已有一定的技術(shù)積累了。3 之所以仍采用“真人換臉”之類的“低端技術(shù)”作為處理手法,主要還是因?yàn)楫?dāng)下的科技水平尚不具備高效、低成本的“虛擬數(shù)字人”生產(chǎn)能力。目前各大公司正在解決“虛擬數(shù)字人”外觀上的問題,他們制作出的數(shù)字人類圖形已接近自然人類照片的逼真程度,但他們目前以及未來很長一段時間內(nèi)都難以解決制作這些外觀所涉及的性價比不高問題。畢竟精細(xì)化建模所消耗的人力、資金和時間等都非一般團(tuán)隊(duì)所能承受,即便現(xiàn)在已有虛幻引擎(Unreal Engine)提供強(qiáng)大的制作平臺,設(shè)計(jì)者要想制作出高清晰度和仿真度的“虛擬數(shù)字人”外觀,也需要耗費(fèi)相當(dāng)多的時間。當(dāng)然,OpenAI的DALL-E讓學(xué)界有了更樂觀的想象,因?yàn)榧热荒荛_發(fā)出這種通過文本描述來創(chuàng)作圖像的“對比語言圖像預(yù)訓(xùn)練”(Contrastive Language-Image Pre-Training,縮寫CLIP)技術(shù),4 那么按照這樣的思考路徑或許未來還可以進(jìn)一步開發(fā)出能生成動態(tài)圖形的技術(shù)。
人類近現(xiàn)代歷史發(fā)展的經(jīng)驗(yàn)表明,消除這種悖論只有一個方法,那就是進(jìn)一步提升生產(chǎn)數(shù)字人的自動化程度。正如手工作坊時代的棉紡織品價格注定難以降低,而且這些產(chǎn)品的質(zhì)量亦難以精確把控,只有當(dāng)其升級到工業(yè)時代的機(jī)械化大生產(chǎn)后才有所改變,當(dāng)下的虛擬人物構(gòu)建所需成本,必然高于日后交由人工智能自動生成的模式,只有通過升級機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)更高程度的所謂“自動化本身的自動化”,5 才能壓低目前“虛擬數(shù)字人”高昂的制作成本。6
在沒有能夠設(shè)計(jì)出人工智能輔助生產(chǎn)技術(shù)之前,“虛擬數(shù)字人”制作領(lǐng)域很難取得實(shí)質(zhì)性的成就,最多只能在既有的原始技術(shù)框架之內(nèi)進(jìn)行內(nèi)卷式的精致化處理。從當(dāng)下的虛擬偶像的生產(chǎn)狀況,也可管窺接下來元宇宙的建設(shè)進(jìn)度。畢竟只有當(dāng)虛擬人物形象、虛擬設(shè)施等數(shù)字內(nèi)容的制作流程能升級到高度自動化的程度,才能把建設(shè)元宇宙所需要消耗的成本(包括人力、資金和時間等)有效降下來,同時也才能讓內(nèi)容生產(chǎn)更具性價比地滿足用戶對及時更新的實(shí)時需求。目前“人工智能生成內(nèi)容”(AI-Generated Content,縮寫AIGC)領(lǐng)域的研發(fā)正在取得一系列成果,如ChatGPT的強(qiáng)大文字生成功能以及Stable Diffusion的智能生成圖片能力,已經(jīng)給人以更大的想象空間。1 GPT模型、Stable Diffusion、MidJourney等AIGC應(yīng)用的歷史性登場表明,生成式人工智能正在成為接下來智能化應(yīng)用領(lǐng)域重要的攻關(guān)方向。2 與“虛擬數(shù)字人”相關(guān)的AIGC并非只限于文本和圖像的智能自動生成,實(shí)際還包括音樂、視頻生成,乃至編程等領(lǐng)域,在生成學(xué)習(xí)算法、預(yù)訓(xùn)練模型等技術(shù)的加持下,其未來的地位將逐步提升到“互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施”的高度。3 只有“虛擬數(shù)字人”日后從外觀到內(nèi)核都具備了AIGC屬性,才算初步抵達(dá)1.0的范疇。
目前業(yè)界對于AIGC模式的動畫制作已有諸多嘗試,如程序員雷希(Ammaar Reshi)基于ChatGPT和MidJourney來制作短片,4 網(wǎng)飛(Netflix)也以智能生成作為輔助,創(chuàng)作了畫質(zhì)更精良的短片,5 這些方法對日后“虛擬數(shù)字人”的制作頗具啟發(fā)性。而Runway推出的Gen-2已具有通過圖像和文本提示生成視頻的能力,6 雖然現(xiàn)有版本生成的畫質(zhì)還顯得粗糙,但日后若能升級到跟ChatGPT、MidJourney之類的軟件搭配使用,那么還會產(chǎn)生新的成就。按照現(xiàn)在AIGC領(lǐng)域的研發(fā)進(jìn)展速度,估計(jì)三五年內(nèi)就有可能創(chuàng)構(gòu)出高效、廉價的“虛擬數(shù)字人”外觀形象生成方式,但創(chuàng)構(gòu)能順利驅(qū)動它的智能內(nèi)核的技術(shù)仍需時日。
正如不能指望一棵大樹的成長如同野草藤蔓一樣迅速,我們也不該奢望“虛擬數(shù)字人”產(chǎn)業(yè)化的時代迅速到來。“虛擬數(shù)字人”涉及的智能化領(lǐng)域尚需更多的時間去實(shí)現(xiàn)技術(shù)積淀。關(guān)系到人機(jī)交互核心問題的“自然語言處理”技術(shù)(Natural Language Processing,縮寫NLP),仍然存在著“語音和語義的歧義性”“句法模糊性”“言語行為的語境性”等諸多尚未獲得有效解決的難題。7 因?yàn)槿祟惖淖匀徽Z言本來就存在著不嚴(yán)謹(jǐn)、不完善的問題,而人類的思維也往往是非理性、非邏輯性的。8如何在這種悖論當(dāng)中做出選擇,才是真正考驗(yàn)所謂“智能”的關(guān)鍵問題,故而讓機(jī)器從“識別語音”升級到“理解語音”乃是一個重要的智能化突破點(diǎn)。在人工智能的情感分析領(lǐng)域,已誕生出基于情感詞典、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的不同情感分析法,但這些算法還相對機(jī)械,在更為復(fù)雜的情感語境中往往不能完滿讀取對象信息。9 一些研究團(tuán)隊(duì)嘗試用“任務(wù)驅(qū)動的語言模型”對此進(jìn)行優(yōu)化,但最終效果如何,仍要通過相關(guān)實(shí)踐進(jìn)行評估。1如今GPT模型演化到4.0版本后,在自然語言處理方面有更進(jìn)一步的突破,但還存在所謂“幻覺”(illusion)問題。2以上這些問題究其原因,本質(zhì)就在于當(dāng)下的人工智能技術(shù)尚未發(fā)展到讓“虛擬數(shù)字人”具備足夠的認(rèn)知、反饋和決策能力,更不要說具備“自我意識”能力了。
就“心智”一詞的語義而言,其被視為能將感知、記憶、思考、評價、決策等綜合起來的一種復(fù)合能力。3 當(dāng)GPT模型出現(xiàn)后,學(xué)界意識到人工智能雖尚未產(chǎn)生“自我意識”(self-awareness),但它能借助“預(yù)訓(xùn)練”+“算法篩選”的方式去模擬“心智”運(yùn)行過程,在形式上接近于人類的“心智”樣態(tài)。這種模仿心智的樣態(tài)可稱為“類人心智”(AI-Mind),或更形象地稱為“硅基心智”。實(shí)際上,即便是在目前的技術(shù)條件下,GPT模型也可以進(jìn)行“感知、記憶、思考、評價、決策”。當(dāng)然,這樣的“心智”畢竟不是來自自主意識,而是基于被動的“預(yù)訓(xùn)練”,所以只是一種“類人心智”。
缺失智能驅(qū)動的“虛擬數(shù)字人”,其外觀再迷人,也只是一具沒有靈魂的“數(shù)字木偶”。目前“柳夜熙”“華智冰”這類所謂虛擬人在技術(shù)上只能被稱為“虛擬形象”,由于不具備最基本的“情境覺知”能力,4 它們在智慧能力方面并不符合“虛擬數(shù)字人”這個概念的內(nèi)涵。這種連AIGC屬性都沒有的虛擬形象只是一種“偽數(shù)字人”。形象是客體,而人是主體,兩者之間有著質(zhì)的區(qū)別。之所以仍將之稱為“虛擬人”而非“虛擬形象”,主要是遵從當(dāng)下主流的口語習(xí)慣而已。盡管它們的外觀在“類人”特征上越來越逼真,在人工智能賦能下,無論是面部建模還是肢體動態(tài)建模,都逐步度過“恐怖谷”階段,然而這都回避不了它們?nèi)酝A粼诳腕w狀態(tài)的事實(shí),有待類似于ChatGPT這樣的智能應(yīng)用給它們注入“靈魂”,讓它們在形式上成為能模擬人類心智的“活物”。5
不過遺憾的是,在“流量為王”的時代,相關(guān)團(tuán)隊(duì)在打造這類虛擬人的時候,其實(shí)對它的智慧化(主體性)發(fā)展方面并不感興趣,其焦點(diǎn)主要集中在如何將這些“網(wǎng)紅”在形象(客體性)展示方面進(jìn)行更深入細(xì)致的打造,從而通過各種花里胡哨的虛招來實(shí)現(xiàn)商業(yè)變現(xiàn)。于是乎,“柳夜熙”這類虛擬偶像在發(fā)展上被關(guān)注最多的問題,并非涉及智能算法、自然語言處理等深層次的技術(shù)問題,反而是聚焦于外貌之類的淺層次的形象建模問題。
這些虛擬偶像的幕后團(tuán)隊(duì)之所以不得不持續(xù)地圍繞它們的“人物設(shè)定”推出各種新的內(nèi)容,就是源于他們更加關(guān)注它們的商業(yè)價值。正因?yàn)橹c(diǎn)不同,這些虛擬偶像的“出圈”只是在聲勢上擴(kuò)大了“虛擬人”的影響力,但對基于人工智能“虛擬數(shù)字人”的深層建構(gòu)層面并沒有太多貢獻(xiàn)。從長遠(yuǎn)來看,虛擬偶像僅有精致姣好的面容和曼妙的身材是不夠的,如果在這些外在形象之下缺乏能夠持續(xù)吸引人的內(nèi)在魅力,那么也就是些花瓶式的空架子罷了。它們的擁躉們在新鮮感過去之后就會很快感到厭倦,而這些虛擬偶像的商業(yè)壽命也就到此為止。如何賦予虛擬偶像更充分的主體性,仍將是一個關(guān)系到它們是否可以持續(xù)發(fā)展的重要問題。
所謂“智能”,首先意味著具有一定的感知、交互能力。6 “虛擬數(shù)字人”至少應(yīng)該能理解用戶語言并且實(shí)現(xiàn)實(shí)時互動,而依據(jù)此標(biāo)準(zhǔn),目前大部分的“虛擬數(shù)字人”連1.0版本的要求都達(dá)不到,只能算是“虛擬數(shù)字人”的“前史”階段。要想達(dá)到實(shí)時互動的要求,就必須要有強(qiáng)大的智能后臺(數(shù)據(jù)、算力和算法)作為底層支撐,而構(gòu)建這樣的底層支撐仍需時日。在目前技術(shù)條件下,“虛擬數(shù)字人”與“元宇宙”概念一樣,也是個被過度熱炒的概念——這些產(chǎn)品在未來將起到非常重要的作用,但并不意味著它們發(fā)揮作用的時刻能很快到來。相關(guān)方面為了迎合資本炒作的需要,故意將相關(guān)產(chǎn)業(yè)初步成型的時間說得很短,讓投資方感覺一切觸手可及。其實(shí)兩者所涉及的底層技術(shù)都尚需更長的發(fā)展時間,遠(yuǎn)未數(shù)年內(nèi)就發(fā)展到為相關(guān)產(chǎn)業(yè)提供直接技術(shù)支撐的程度。當(dāng)“虛擬數(shù)字人”技術(shù)發(fā)展到一定程度后,還需整合進(jìn)產(chǎn)業(yè)鏈中,通過持續(xù)升級迭代而形成立體的商業(yè)生態(tài),并非如同當(dāng)下這樣零散分散在互不關(guān)聯(lián)的各種應(yīng)用場景中。
結(jié)語
20世紀(jì)末時,尼葛洛龐帝就指出:“人類的每一代都會比上一代更加數(shù)字化。”1 這種趨勢進(jìn)入21世紀(jì)更呈現(xiàn)出加速趨勢。在新冠疫情環(huán)境中成長起來的21世紀(jì)“10后”這一代人,其思維受到的影響可能超出我們的預(yù)估。網(wǎng)絡(luò)課程、網(wǎng)絡(luò)娛樂、網(wǎng)絡(luò)消費(fèi)等在線生活給他們的童年留下了深刻的時代烙印,他們對數(shù)字化娛樂、元宇宙、“虛擬數(shù)字人”等在線事物的接受和運(yùn)用程度都將超越前代。在他們中的不少人看來,在線生活不是現(xiàn)實(shí)生活的補(bǔ)充,而是與之平行的“第二生活”,甚至是比后者更為重要的生活方式。在人類社會的數(shù)字化轉(zhuǎn)型過程中,作為其衍生產(chǎn)物之一的“虛擬數(shù)字人”在接下來的社會發(fā)展過程中還將扮演愈加重要的角色。因此,在這一歷史趨勢下如何發(fā)揮“虛擬數(shù)字人”的優(yōu)勢、如何應(yīng)對其引發(fā)的問題,將是人們需要進(jìn)一步思考的議題。
The Concept of ?“Virtual Digital Human”:
Connotation, Prospect and Technical Bottleneck
JIAN Shengyu
Abstract: As a companion product of the digital transformation of society, the “virtual digital human” industry contains a huge market demand. Various industries and fields, from economy to culture and education, need virtual employees who can collaborate with humans. At present, “virtual digital people” are still only digital characters with appearance and no independent thought, but with the upgrading of drivers, they will also have a deeper impact on human society. The “virtual digital human” will have a broader application space after the “Meta-universe” and other intelligent virtual platforms are built, adding new human resources to human society. The emergence of ChatGPT presents a new opportunity to play a key role as the inner driver of the digital person of the future, giving the latter a “human-like mind”. Nevertheless, there are still many technical bottlenecks in the virtual digital human industry that need to be solved in terms of automatic generation and intelligent driving of character images.
Key words: artificial intelligence; Meta-universe; virtual digital human; ChatGPT; AI-mind; AI-drive; artificial intelligence generated content (AIGC)
(責(zé)任編輯:陳 ? 吉)