李建剛
數(shù)字人(Digital Human,簡稱DH)代表了媒體和科技領(lǐng)域的一項重要創(chuàng)新,它是虛擬實體的一項顯著成就。借助人工智能和計算機圖形技術(shù),能夠高度逼真地模仿真人的外貌、聲音和行為,但是在模擬連續(xù)思考和主觀決策方面尚存在一些技術(shù)挑戰(zhàn)??梢钥隙ǖ氖?,數(shù)字人作為新興媒體形式,正在重新定義并深刻影響著人工智能與人類之間、人與人之間以及社會整體互動的方式。
數(shù)字人通常被理解為一種數(shù)字化身(digital avatar),允許用戶完全改變其身份為虛擬存在。通過這種虛擬身份,用戶可以將其視為真實人的數(shù)字表現(xiàn),或者創(chuàng)造獨特的角色并為其編寫身份腳本。
這個概念的普及和發(fā)展部分要歸功于好萊塢的科幻電影,比如《猩球崛起》和《阿凡達》。隨后,視頻游戲工作室也繼續(xù)推動了數(shù)字人的技術(shù)應(yīng)用,例如Quantic Dream 開發(fā)的視頻游戲,將真實演員轉(zhuǎn)換為數(shù)字副本(digital copies),可以在游戲機和個人電腦上運行。與此同時,數(shù)字角色和聲音合成技術(shù)的發(fā)展也為數(shù)字人的逼真性和流暢性作出了貢獻。數(shù)字人的制作涉及傳統(tǒng)動畫制作的三個主要步驟:模型創(chuàng)建、動作捕捉和實時渲染。在模型創(chuàng)建階段,演員佩戴特殊的標記設(shè)備,以創(chuàng)建臉部的3D 模型。人體動作需要由多個攝像機持續(xù)拍攝。這些攝像機捕捉每一幀和不同角度的動作,并將數(shù)據(jù)傳輸?shù)截撠熶秩緮?shù)字角色的系統(tǒng)中。對于數(shù)字化身,這些模型會通過演員的真實表情和動作來實時驅(qū)動,以呈現(xiàn)更逼真的外觀和行為。
數(shù)字人的概念起源和發(fā)展根植于計算機科學(xué)、人工智能和計算機圖形學(xué)等多個領(lǐng)域。在20 世紀60 年代到70 年代,研究人員開始嘗試使用計算機生成簡單的虛擬角色和圖形。隨著70 年代到80 年代人工智能和自然語言處理技術(shù)的迅速發(fā)展,研究人員開始將注意力轉(zhuǎn)向如何使計算機能夠理解和生成人類語言。這一領(lǐng)域的進展為數(shù)字角色生成提供了基礎(chǔ),使它們能夠模仿人類的對話和語音。80 年代到90 年代,計算機圖形學(xué)領(lǐng)域取得顯著進展。研究人員開始應(yīng)用三維建模和渲染技術(shù)來創(chuàng)建逼真的數(shù)字角色。這些技術(shù)的發(fā)展為數(shù)字人的外觀和行為提供了真實的效果。從20 世紀90 年代至今,視覺效果和電影工作室創(chuàng)造了眾多經(jīng)典的3D 角色形象,推動了數(shù)字角色技術(shù)在傳媒業(yè)和娛樂產(chǎn)業(yè)中的采用。進入21 世紀,人工智能、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、計算機視覺等領(lǐng)域的新成果和新突破產(chǎn)生協(xié)同效應(yīng),計算機和軟件引擎已經(jīng)能夠滿足實時圖形處理,演員動作和3D 模型結(jié)合起來的延遲時間可以控制在觀眾難以察覺的范圍內(nèi)。
今天的人們無需依賴專業(yè)工作室設(shè)備或大量預(yù)算即可創(chuàng)建自己的數(shù)字角色和身份。在設(shè)計與制作成本大幅降低的同時,數(shù)字人技術(shù)已經(jīng)演變?yōu)橐粋€復(fù)雜領(lǐng)域,涉及先進技術(shù)和專業(yè)知識的綜合運用,這為未來的媒體、娛樂、教育和社交互動提供了廣闊空間。
在當今信息爆炸的屏幕時代,人們面臨巨大的信息量和多任務(wù)處理的挑戰(zhàn),這被形象地稱為“數(shù)據(jù)洪流(Data Deluge)”。在這個背景下,新一代數(shù)字人應(yīng)運而生,它們?nèi)诤狭瞬煌夹g(shù)領(lǐng)域的最新進展,呈現(xiàn)出前所未有的高級功能和強大應(yīng)用潛力。它們不僅僅是媒體內(nèi)容中的參與者,而且正在逐漸演變成一種全新的人機媒介。借助人工智能系統(tǒng),這些數(shù)字人具備了理解復(fù)雜模式、適應(yīng)新情境,并不斷提高性能的能力。它們有助于幫助人們在多任務(wù)環(huán)境下處理龐大的信息流,同時集中精力關(guān)注和思考重要問題。這一趨勢代表著數(shù)字人在塑造和改善人機互動方面具有重要的價值。
數(shù)字人的發(fā)展還包括情感連接與智能互動的交叉領(lǐng)域。巴黎理工學(xué)院研究主任凱瑟琳·佩拉喬德在1994 年開發(fā)了他們第一個自主代理角色,從那時起,她研究的重點就是集中在如何使數(shù)字代理角色更具表現(xiàn)力,以便理解和適應(yīng)用戶的情感。借助人工智能和先進的算法,數(shù)字人能夠建立深層次的情感聯(lián)系,可以更好地理解和響應(yīng)用戶的需求。通過分析用戶的面部表情、聲音語調(diào)以及文本中的情感線索,數(shù)字人可以理解用戶的情感狀態(tài)并相應(yīng)調(diào)整其互動方式,這種情感智能可以應(yīng)用在多個領(lǐng)域,例如提供鼓勵、幽默等情感和心理支持,從而大幅增強了互動的人性化程度。
數(shù)字人的創(chuàng)建涉及數(shù)學(xué)算法、人工智能技術(shù)和物理模擬的復(fù)雜組合,以支持其運動、行為和物理特性。人工智能和機器學(xué)習(xí)技術(shù)賦予數(shù)字人語言理解、情感識別、問題解決和決策能力。語音技術(shù)通過合成和串聯(lián)的方式產(chǎn)生語音,利用機器學(xué)習(xí)算法捕捉人類語音的微妙之處,如音調(diào)、音色和節(jié)奏等。認知架構(gòu)構(gòu)成了數(shù)字人行為建模的核心,將各種智能技術(shù)融合在一起,以模仿類似人類的認知過程。情感模型進一步增強了數(shù)字人的行為,允許虛擬實體感知并回應(yīng)人類的情感。
我們已經(jīng)目睹了在新聞廣播中,主持人以數(shù)字化身和相同的聲音來傳遞信息。未來,在教育和學(xué)習(xí)中,歷史上的重要人物也許可以在電子課程中與學(xué)生進行互動??傊?,整個行業(yè)都將受到人工智能驅(qū)動的數(shù)字人技術(shù)的影響。數(shù)字人具有與人自然對話的能力,以自然的方式進行實時響應(yīng),甚至可以提供屏幕指南和視頻來協(xié)助用戶進行互動。我們將在日常生活中看到更多的數(shù)字人,幫助我們完成各種任務(wù),而每個人也將逐漸擁有自己的數(shù)字版本。數(shù)字人未來將在智能決策方面發(fā)揮關(guān)鍵作用,其海量知識儲備和智能化的知識分析處理能力,必然會激發(fā)研究人員進一步深入探討語言理解、知識表達、邏輯推理等復(fù)雜認知任務(wù)以及相關(guān)倫理體系的研究和底層設(shè)計。
數(shù)字人的崛起正在改變我們與社交媒體和數(shù)字平臺互動的方式。隨著人工智能能力不斷增強,我們也意識到倫理和道德風(fēng)險的顯著增加,這些風(fēng)險正在對社會空間產(chǎn)生深遠影響。因此,如何在應(yīng)用設(shè)計和倫理規(guī)范方面前瞻性地引導(dǎo)這些技術(shù),以促進社會個體的參與和連接,而不是加劇數(shù)字社會中的分裂和不平等,成了亟待解決的問題。
長期以來,數(shù)字人被認為難以真正實現(xiàn)與人類的互動,因為它們受人類控制,并受其程序決定其言行。麻省理工學(xué)院教授賈斯汀·卡塞爾曾提出這樣的問題,“如果數(shù)字人被黑客攻擊并發(fā)表貶低性言論,會導(dǎo)致什么后果?”它可能引發(fā)一系列事件:首先是法律后果,這些言辭可能觸犯法律,特別是如果它們構(gòu)成誹謗,涉及名譽、隱私或商業(yè)價值方面的侵犯。虛假信息和欺騙是數(shù)字人技術(shù)所帶來的首要風(fēng)險。惡意使用數(shù)字人技術(shù)可以輕松制造虛假信息和欺騙,威脅到媒體信息的可信度,破壞公共秩序。數(shù)字人能夠以逼真的方式模仿真人外貌和言語,這使虛假信息更難以被識別。在社交媒體和新聞傳播領(lǐng)域,這已經(jīng)成為重要問題。其次,隱私保護方面的問題凸顯了數(shù)字人技術(shù)的風(fēng)險性。數(shù)字人技術(shù)涉及大量個人數(shù)據(jù)的收集和處理,面部識別技術(shù)的應(yīng)用使得用戶面部特征可能被不當?shù)孬@取和使用。隨著數(shù)字人的數(shù)量不斷增加,一些程序甚至可能在未獲得真人同意或授權(quán)的情況下被應(yīng)用。由于涉及個人數(shù)據(jù)的安全性和濫用問題,這會引發(fā)嚴重的隱私擔憂。用戶需要更多的控制權(quán)和透明度,以保護其個人信息和隱私權(quán)。第三,數(shù)字人技術(shù)可能對一些行業(yè)和職業(yè)造成沖擊,特別是在媒體和傳播領(lǐng)域。AI主播可能逐漸取代真實的媒體從業(yè)者,如新聞主持人和播音員。這可能引發(fā)失業(yè)問題或產(chǎn)生職業(yè)不穩(wěn)定性現(xiàn)象,需要采取政策和培訓(xùn)措施來幫助受影響的人員重新就業(yè)或提高技能。最后,數(shù)字人技術(shù)本身也面臨著技術(shù)漏洞和安全威脅。由于技術(shù)系統(tǒng)的復(fù)雜性,數(shù)字人可能受到黑客攻擊或存在其他潛在安全漏洞。這可能導(dǎo)致數(shù)字人被濫用,例如用于惡意目的、虛假信息的傳播或網(wǎng)絡(luò)詐騙。
這些倫理挑戰(zhàn)和風(fēng)險需要跨學(xué)科的合作來解決,涵蓋技術(shù)、法律、倫理和政策等領(lǐng)域,以確保數(shù)字人技術(shù)的發(fā)展不會損害社會公共利益和安全。同時,用戶教育和媒介素養(yǎng)的提高也是面對這些挑戰(zhàn)的關(guān)鍵因素。
數(shù)字人的應(yīng)用領(lǐng)域廣泛,涵蓋了匿名性需求和媒體內(nèi)容創(chuàng)作等多個領(lǐng)域。不僅是傳媒業(yè)和娛樂產(chǎn)業(yè),科技企業(yè)也積極探索數(shù)字人技術(shù),以創(chuàng)建虛擬顧問和改善用戶體驗。未來社會可能需要建立以真實人特征為本體模型,以數(shù)字人角色為社會延展的多層級、多維度網(wǎng)絡(luò)安全風(fēng)險評估體系,這有助于前瞻性監(jiān)測和現(xiàn)代化管理。政府部門和網(wǎng)絡(luò)安全監(jiān)管部門需要加快建立和完善與數(shù)字人相關(guān)的法律法規(guī),以防范網(wǎng)絡(luò)安全攻擊,并推動數(shù)字文化的發(fā)展。
通過持續(xù)的研究和合作,我們可以更好地理解數(shù)字人的潛力和挑戰(zhàn),同時確保其發(fā)展符合社會的利益和價值觀。這一領(lǐng)域的不斷發(fā)展將為我們創(chuàng)造更廣闊的數(shù)字未來,激發(fā)創(chuàng)新,并推動社會朝著更加智能化和緊密連接的方向邁進。