數(shù)字世界的居民

2024-08-03 00:00:00李雅高迎明

知識(shí)就是力量 2024年7期

陪伴在虛擬空間的“朋友”

虛擬數(shù)字人存在于電腦和網(wǎng)絡(luò)世界中，你可以和它們交流，它會(huì)慢慢“了解”你的習(xí)慣，變得越來越“懂”你。

為了讓這些虛擬朋友更真實(shí)，科學(xué)家開發(fā)了一系列技術(shù)。

聽懂你在說什么

聽懂的背后是自然語言處理技術(shù)在起作用，它包括語音識(shí)別、語言理解、語言生成等技術(shù)，這讓虛擬數(shù)字人可以理解并生成自然語言。

此外，為了讓虛擬數(shù)字人的表情和動(dòng)作更生動(dòng)，科學(xué)家利用面部表情和身體動(dòng)作捕捉技術(shù)，對人類運(yùn)動(dòng)數(shù)據(jù)進(jìn)行采集和分析，從而控制虛擬數(shù)字人的運(yùn)動(dòng)和行為。這樣，它們就能以更自然和有趣的方式與人交流了。

情緒“補(bǔ)給站”

當(dāng)涉及情感交流時(shí)，情感識(shí)別技術(shù)就派上了用場。這項(xiàng)技術(shù)不僅可以通過收集用戶的說話內(nèi)容、語音語調(diào)、面部表情等信息分析其情感狀態(tài)，還會(huì)給予適當(dāng)?shù)那楦蟹答仭?/p>

理解你的意圖

為了讓虛擬數(shù)字人能夠記住用戶喜好并提供更好的服務(wù)，深度學(xué)習(xí)技術(shù)對大量數(shù)據(jù)進(jìn)行學(xué)習(xí)和分析，使虛擬數(shù)字人可以自主改進(jìn)行為。

在自然人與虛擬數(shù)字人交流的過程中，自然語言理解技術(shù)可以使虛擬數(shù)字人理解用戶輸入的自然語言，并作出回應(yīng)。近年來，大語言模型的橫空出世也為人機(jī)交互的智能性帶來新的突破。

活靈活現(xiàn)的“人”

熟悉的聲音

在自然語言理解并生成回復(fù)文本基礎(chǔ)上，語音合成技術(shù)可以將文字內(nèi)容生成為音頻，讓虛擬數(shù)字人說出的話更自然。

早期的語音合成技術(shù)使用的是單元拼接合成，即先構(gòu)建語音片段數(shù)據(jù)庫，然后選擇合適的語音片段拼接成想要的語音。

從輸入信息到虛擬數(shù)字人輸出內(nèi)容所需的處理技術(shù)（供圖/李雅）

隨著深度學(xué)習(xí)技術(shù)的不斷成熟，深度神經(jīng)網(wǎng)絡(luò)被用來學(xué)習(xí)文本與語音之間的“復(fù)雜關(guān)系”，利用大量的訓(xùn)練數(shù)據(jù)學(xué)習(xí)如何從文本生成更自然的語音。并且，隨著深度學(xué)習(xí)模型的更新迭代，現(xiàn)在最新的模型已經(jīng)可以做到使用某個(gè)同學(xué)的幾條語音片段，就能“克隆”出這個(gè)同學(xué)的聲音，實(shí)現(xiàn)從文本到聲音的轉(zhuǎn)換。

人工智能技術(shù)幻化成“人”

3D建模技術(shù)是創(chuàng)建虛擬數(shù)字人的外觀和形態(tài)的基礎(chǔ)。建模軟件可以創(chuàng)造出栩栩如生的虛擬形象；運(yùn)動(dòng)學(xué)引擎可以模擬虛擬人的運(yùn)動(dòng)和動(dòng)作，讓行為更加真實(shí)和流暢；關(guān)節(jié)驅(qū)動(dòng)技術(shù)和程序驅(qū)動(dòng)技術(shù)，則為虛擬數(shù)字人提供了直觀的交互體驗(yàn)和高度自定義的行為控制。

虛擬數(shù)字人能做什么？

作為客服代表，虛擬數(shù)字人展現(xiàn)出了巨大潛力，它們不僅能提供全天不間斷服務(wù)，還可以根據(jù)用戶的情感狀態(tài)提供個(gè)性化服務(wù)，在提高服務(wù)效率的同時(shí)，增強(qiáng)用戶體驗(yàn)。

在教育領(lǐng)域，虛擬數(shù)字人則可“化身”教師或助教，根據(jù)學(xué)生的學(xué)習(xí)情況，智能推薦學(xué)習(xí)內(nèi)容，甚至在虛擬環(huán)境中模擬實(shí)驗(yàn)操作，為學(xué)生帶來更生動(dòng)直觀的學(xué)習(xí)體驗(yàn)。

例如，北京郵電大學(xué)的智慧教室借助“5G+全息投影”技術(shù)，將授課老師的三維全息投影人像清晰呈現(xiàn)在教室講臺(tái)上，實(shí)現(xiàn)了跨校區(qū)遠(yuǎn)程互動(dòng)教學(xué)。同時(shí)，教室里配備了人工智能助學(xué)機(jī)器人，可輔助同學(xué)們更好地完成學(xué)習(xí)任務(wù)。

在醫(yī)療健康領(lǐng)域，虛擬數(shù)字人可以輔助醫(yī)生進(jìn)行病情診斷，提供治療建議，甚至在遠(yuǎn)程醫(yī)療中扮演重要角色，例如，通過模擬手術(shù)和解剖，幫助醫(yī)學(xué)生進(jìn)行實(shí)踐學(xué)習(xí)。

虛擬數(shù)字人，就像是來自未來的使者，與它的每一次交互都是一次奇妙的“冒險(xiǎn)”。在未來，它們將變得更加智能化、個(gè)性化，或許會(huì)成為我們生活中不可缺少的一部分。

知識(shí)鏈接

什么是大語言模型？

大語言模型是基于深度學(xué)習(xí)技術(shù)構(gòu)建的擁有數(shù)十億甚至數(shù)千億個(gè)參數(shù)的巨大神經(jīng)網(wǎng)絡(luò)模型，通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練，具備語言理解和生成能力，能提取關(guān)鍵信息、分析語義，準(zhǔn)確識(shí)別用戶意圖，進(jìn)而生成用戶滿意的回應(yīng)。

（責(zé)任編輯 / 王佳璇美術(shù)編輯 / 周游）

知識(shí)就是力量2024年7期

知識(shí)就是力量的其它文章: 百問百答; 語音助手COCO; 更聰明更清潔; 通過人物、情節(jié)與懸念賦予故事生命力; 罷工; 地心歷險(xiǎn)記（上）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡