虛擬數(shù)字人存在于電腦和網(wǎng)絡(luò)世界中,你可以和它們交流,它會(huì)慢慢“了解”你的習(xí)慣,變得越來越“懂”你。
為了讓這些虛擬朋友更真實(shí),科學(xué)家開發(fā)了一系列技術(shù)。
聽懂的背后是自然語言處理技術(shù)在起作用,它包括語音識(shí)別、語言理解、語言生成等技術(shù),這讓虛擬數(shù)字人可以理解并生成自然語言。
此外,為了讓虛擬數(shù)字人的表情和動(dòng)作更生動(dòng),科學(xué)家利用面部表情和身體動(dòng)作捕捉技術(shù),對人類運(yùn)動(dòng)數(shù)據(jù)進(jìn)行采集和分析,從而控制虛擬數(shù)字人的運(yùn)動(dòng)和行為。這樣,它們就能以更自然和有趣的方式與人交流了。
當(dāng)涉及情感交流時(shí),情感識(shí)別技術(shù)就派上了用場。這項(xiàng)技術(shù)不僅可以通過收集用戶的說話內(nèi)容、語音語調(diào)、面部表情等信息分析其情感狀態(tài),還會(huì)給予適當(dāng)?shù)那楦蟹答仭?/p>
為了讓虛擬數(shù)字人能夠記住用戶喜好并提供更好的服務(wù),深度學(xué)習(xí)技術(shù)對大量數(shù)據(jù)進(jìn)行學(xué)習(xí)和分析,使虛擬數(shù)字人可以自主改進(jìn)行為。
在自然人與虛擬數(shù)字人交流的過程中,自然語言理解技術(shù)可以使虛擬數(shù)字人理解用戶輸入的自然語言,并作出回應(yīng)。近年來,大語言模型的橫空出世也為人機(jī)交互的智能性帶來新的突破。
在自然語言理解并生成回復(fù)文本基礎(chǔ)上,語音合成技術(shù)可以將文字內(nèi)容生成為音頻,讓虛擬數(shù)字人說出的話更自然。
早期的語音合成技術(shù)使用的是單元拼接合成,即先構(gòu)建語音片段數(shù)據(jù)庫,然后選擇合適的語音片段拼接成想要的語音。
隨著深度學(xué)習(xí)技術(shù)的不斷成熟,深度神經(jīng)網(wǎng)絡(luò)被用來學(xué)習(xí)文本與語音之間的“復(fù)雜關(guān)系”,利用大量的訓(xùn)練數(shù)據(jù)學(xué)習(xí)如何從文本生成更自然的語音。并且,隨著深度學(xué)習(xí)模型的更新迭代,現(xiàn)在最新的模型已經(jīng)可以做到使用某個(gè)同學(xué)的幾條語音片段,就能“克隆”出這個(gè)同學(xué)的聲音,實(shí)現(xiàn)從文本到聲音的轉(zhuǎn)換。
3D建模技術(shù)是創(chuàng)建虛擬數(shù)字人的外觀和形態(tài)的基礎(chǔ)。建模軟件可以創(chuàng)造出栩栩如生的虛擬形象;運(yùn)動(dòng)學(xué)引擎可以模擬虛擬人的運(yùn)動(dòng)和動(dòng)作,讓行為更加真實(shí)和流暢;關(guān)節(jié)驅(qū)動(dòng)技術(shù)和程序驅(qū)動(dòng)技術(shù),則為虛擬數(shù)字人提供了直觀的交互體驗(yàn)和高度自定義的行為控制。
作為客服代表,虛擬數(shù)字人展現(xiàn)出了巨大潛力,它們不僅能提供全天不間斷服務(wù),還可以根據(jù)用戶的情感狀態(tài)提供個(gè)性化服務(wù),在提高服務(wù)效率的同時(shí),增強(qiáng)用戶體驗(yàn)。
在教育領(lǐng)域,虛擬數(shù)字人則可“化身”教師或助教,根據(jù)學(xué)生的學(xué)習(xí)情況,智能推薦學(xué)習(xí)內(nèi)容,甚至在虛擬環(huán)境中模擬實(shí)驗(yàn)操作,為學(xué)生帶來更生動(dòng)直觀的學(xué)習(xí)體驗(yàn)。
例如,北京郵電大學(xué)的智慧教室借助“5G+全息投影”技術(shù),將授課老師的三維全息投影人像清晰呈現(xiàn)在教室講臺(tái)上,實(shí)現(xiàn)了跨校區(qū)遠(yuǎn)程互動(dòng)教學(xué)。同時(shí),教室里配備了人工智能助學(xué)機(jī)器人,可輔助同學(xué)們更好地完成學(xué)習(xí)任務(wù)。
在醫(yī)療健康領(lǐng)域,虛擬數(shù)字人可以輔助醫(yī)生進(jìn)行病情診斷,提供治療建議,甚至在遠(yuǎn)程醫(yī)療中扮演重要角色,例如,通過模擬手術(shù)和解剖,幫助醫(yī)學(xué)生進(jìn)行實(shí)踐學(xué)習(xí)。
虛擬數(shù)字人,就像是來自未來的使者,與它的每一次交互都是一次奇妙的“冒險(xiǎn)”。在未來,它們將變得更加智能化、個(gè)性化,或許會(huì)成為我們生活中不可缺少的一部分。
大語言模型是基于深度學(xué)習(xí)技術(shù)構(gòu)建的擁有數(shù)十億甚至數(shù)千億個(gè)參數(shù)的巨大神經(jīng)網(wǎng)絡(luò)模型,通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練,具備語言理解和生成能力,能提取關(guān)鍵信息、分析語義,準(zhǔn)確識(shí)別用戶意圖,進(jìn)而生成用戶滿意的回應(yīng)。
(責(zé)任編輯 / 王佳璇 美術(shù)編輯 / 周游)