AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)
——發(fā)音人的視角

2023-02-06 20:19:22彭冬雪

中國傳媒科技 2023年12期

彭冬雪

（云南藝術(shù)學(xué)院，云南昆明 650500）

人工智能的應(yīng)用自落地以來，相關(guān)技術(shù)逐漸從理論研究和應(yīng)用研究走向落地實(shí)踐，互聯(lián)網(wǎng)和大數(shù)據(jù)的技術(shù)發(fā)展使得人工智能的數(shù)據(jù)和算法應(yīng)用也逐漸普及，隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用，AI 虛擬數(shù)字人也逐漸與其他技術(shù)和領(lǐng)域進(jìn)行融合，形成了更加復(fù)雜和綜合的應(yīng)用場景。而形成的大多數(shù)產(chǎn)品和應(yīng)用都與用戶使用脫不開關(guān)系，以往的文獻(xiàn)重在人機(jī)交互的層面，方向多是以“由下向上”為主，也就是在產(chǎn)品的服務(wù)環(huán)節(jié)上，多以用戶的需求為重點(diǎn)，尤其在特定的場景下，如何迎合與適配用戶體驗(yàn)成為AIGC 產(chǎn)品尤其是AI 虛擬數(shù)字人的改進(jìn)目標(biāo)和方向。探討AI 虛擬數(shù)字人與用戶關(guān)系建構(gòu)的原理、方法和實(shí)際應(yīng)用是本文關(guān)注的重點(diǎn)，尤其“發(fā)音人”的作用不容小覷。

1. AI 虛擬數(shù)字人的成長路徑

AI 虛擬數(shù)字人是一種具有多重人類特征（外貌特征、人類表演能力、人類交互能力等）的綜合產(chǎn)物，由計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語音合成等計(jì)算機(jī)手段創(chuàng)造及使用，具有語言交流、表情傳遞、行為決策等多種功能。AI 虛擬數(shù)字人從20世紀(jì)80 年代開始發(fā)展，起初受限于技術(shù)，虛擬人制作以手繪和化妝為主，制作形式主要是2D、3D 動(dòng)畫，代表性虛擬偶像有：日本虛擬歌姬林明美和英國虛擬演員Max Headroom。到21 世紀(jì)初期，隨著CG 技術(shù)、動(dòng)作面部捕捉技術(shù)的發(fā)展，逐漸取代了傳統(tǒng)手繪，虛擬人開始加速運(yùn)用到影視行業(yè)。2007 年～2016 年，這個(gè)階段主要是音樂軟件的二次元虛擬形象，直到2016年被稱為人工智能元年，人工智能開始帶動(dòng)虛擬偶像的發(fā)展。2020 年至今是AI 虛擬數(shù)字人的成長階段。

AI 虛擬數(shù)字人可以應(yīng)用于虛擬助手、虛擬客服、虛擬偶像/主播等多個(gè)領(lǐng)域，但更強(qiáng)調(diào)其多重人類特征的模擬和呈現(xiàn)。目前比較成功的AI 虛擬數(shù)字人形象有以下：

清華數(shù)字學(xué)生“華智冰”是人工智能全新聊天機(jī)器人，能夠與人對話互動(dòng)，作詩、作畫、作曲、翻譯，都游刃有余。柳夜熙是虛擬美妝博主，不僅擁有完美的身材和顏值，還會(huì)定期更新視頻，教網(wǎng)友如何化妝、如何搭配等。度曉曉、希加加是百度推出的AI 數(shù)字人，擁有二次元的形象，可以幫助人們搜索信息、回答問題等。

AI 虛擬數(shù)字人、人工智能主播和虛擬偶像都是基于人工智能技術(shù)創(chuàng)建的角色，但它們的應(yīng)用場景、功能和形態(tài)存在一些區(qū)別：人工智能主播是基于人工智能技術(shù)開發(fā)的，具有語音識(shí)別、語音合成、自然語言處理等功能，能夠與用戶進(jìn)行交互的虛擬主播。它通常被應(yīng)用于直播帶貨、新聞播報(bào)等領(lǐng)域，能夠自動(dòng)化地進(jìn)行播報(bào)和回答用戶的問題。我們在一些媒體平臺(tái)看到的人工智能主播有的是以真人主播為原型，比較有代表性的人工智能主播有：新華社首位AI 合成主播“新小浩”，搜狗聯(lián)合新華社推出的全球首個(gè)3D AI合成主播“新小微”，科大訊飛推出的AI 主播“康曉輝”和“時(shí)間小妮”，央視的AI 主播“小白”，女主播“新小萌”。

虛擬偶像是基于人工智能技術(shù)開發(fā)的，具有音樂表演、舞蹈表演、形象設(shè)計(jì)等功能的虛擬人物。它們通常被應(yīng)用于娛樂、音樂等領(lǐng)域，能夠進(jìn)行多樣化的表演和互動(dòng)。代表性的虛擬偶像有——翎：由魔琺科技與次世文化共同打造的虛擬偶像，以京劇梅派第三代傳人的聲音，現(xiàn)場演繹梅蘭芳代表作《天女散花》，成為首個(gè)登上央視舞臺(tái)的虛擬偶像。其發(fā)布于社交平臺(tái)的內(nèi)容涉及琴棋書畫、梅蘭竹菊，均營造出一種“科技國風(fēng)感”。洛天依：上海禾念信息科技有限公司運(yùn)營的虛擬歌手，也是中國第一個(gè)擁有自己的專業(yè)聲庫和形象設(shè)定的虛擬歌手。ASoul：字節(jié)跳動(dòng)旗下品牌朝夕光年的虛擬偶像組合，包括嘉然、向晚、乃琳、貝拉和珈樂。A-SOUL 第二任看板娘：米哈游發(fā)布的一個(gè)二次元虛擬偶像。K/DA：韓國女子團(tuán)體，由阿貍、卡莎、莎彌拉和迦娜四位英雄組成。初音未來：CRYPTON FUTURE MEDIA 開發(fā)的音源庫，也是日本第一個(gè)使用全息投影技術(shù)舉辦演唱會(huì)的虛擬偶像。絆愛：日本女子團(tuán)體，也是世界上第一個(gè)虛擬主播。未來明：日本的一位虛擬主播，因其游戲和直播內(nèi)容而受到關(guān)注。七海Nana7mi：中國的一位虛擬主播，因其游戲和直播內(nèi)容而受到關(guān)注。時(shí)乃空：中國的一位虛擬主播，因其音樂和直播內(nèi)容而受到關(guān)注。

AI 虛擬數(shù)字人、人工智能主播和虛擬偶像雖然應(yīng)用于不同場景，但是他們之間還有一點(diǎn)不同：“中之人”—發(fā)音人的作用不同。

2. AI 數(shù)字人如何喚起用戶的感知真實(shí)

AI 虛擬數(shù)字人是一種基于人工智能技術(shù)的虛擬形象，可以與用戶進(jìn)行交互和交往，日常中的互動(dòng)是社會(huì)上個(gè)人與個(gè)人之間，群體與群體之間等通過語言或其他手段傳播信息而發(fā)生的相互依賴性行為的過程，因此AI 虛擬數(shù)字人在與用戶互動(dòng)的過程中也應(yīng)該有一定的社會(huì)行為，以更好地實(shí)現(xiàn)人機(jī)互動(dòng)。人工智能、圖形學(xué)和機(jī)器人方面的進(jìn)展正在加速實(shí)現(xiàn)工具人身代理，如社交機(jī)器人、虛擬化身和數(shù)字人類。體現(xiàn)的虛擬人工代理的非語言行為是與現(xiàn)有媒介的關(guān)鍵區(qū)別。當(dāng)我們與具有人類外形的代理人互動(dòng)時(shí)，我們自然希望他們能像人類一樣做一些社會(huì)行為，這通常被稱為“社會(huì)負(fù)擔(dān)”，這種非語言行為在許多人與人的互動(dòng)和人與代理的互動(dòng)研究中被證明是有效的。代理人適當(dāng)?shù)氖謩莺捅砬橛兄诮沂敬砣说囊鈭D，使聽眾集中注意力，并與人類建立融洽的關(guān)系。[1]個(gè)人與具有類似人類存在的物體互動(dòng)的方式與無生命的物體不同。他們傾向于將類似的社會(huì)規(guī)則賦予具有人類外觀的計(jì)算機(jī)技術(shù)，盡管他們完全意識(shí)到他們在與機(jī)器互動(dòng)。擬人化的存在引起了個(gè)人的基本社會(huì)腳本，如禮貌和互惠，這導(dǎo)致了與機(jī)器的情感、認(rèn)知和社會(huì)反應(yīng)。過去的研究表明，非人類伙伴的可感知的人類相似性是寄生社會(huì)互動(dòng)發(fā)生的重要前提，這使得它是真實(shí)的而不是虛構(gòu)的。寄生社會(huì)關(guān)系的發(fā)展取決于對應(yīng)方的真實(shí)性、現(xiàn)實(shí)性或可信度水平。[2]如何建立與用戶的真實(shí)的交往關(guān)系？在關(guān)系的這一層面里具有很多維度：情感關(guān)系、建立信任、互動(dòng)的有效性等。接下來筆者將以百度的AI 虛擬數(shù)字人度曉曉為例，在多方面進(jìn)行分析。

2.1 AI 虛擬數(shù)字人需要與用戶建立信任

信任被定義為某人愿意在某個(gè)問題、背景或信息方面變得易受影響。[3]這就是為什么當(dāng)涉及人機(jī)交互時(shí)，信任具有特殊的重要性，用戶需要信任和依賴數(shù)字代理或虛擬助手，因?yàn)樗麄儽仨毚硭麄冃惺?。[4]度曉曉是百度公司推出的手機(jī)虛擬AI 助手，是國內(nèi)首個(gè)可交互虛擬數(shù)字人。度曉曉具備較為完整的語音交互體驗(yàn)，與以往的智能音箱一樣，用戶通過語音喚醒App，就可以進(jìn)行1to1 的對話體驗(yàn)。除了能回答用戶的問題外，還可以主動(dòng)感知用戶需求，分析用戶的行為、興趣和環(huán)境等信息進(jìn)行智能分析，主動(dòng)為用戶提供服務(wù)。目前度曉曉的應(yīng)用場景也比較豐富，包括語音交互、內(nèi)容創(chuàng)作、知識(shí)回答、情感陪伴等。而用戶對互動(dòng)的內(nèi)容也會(huì)有一個(gè)基本的判斷和要求，互動(dòng)是自然的，并且這些服務(wù)以及提供的信息必須是真實(shí)的有效的。在今年5 月底舉行的2023 萬象·百度移動(dòng)生態(tài)大會(huì)上，肖陽就演示了“AI 伙伴”的能力?；?dòng)過程中，這位“Al 伙伴”，能夠聽懂用戶的任何問題，并用語音進(jìn)行互動(dòng)，同時(shí)為用戶標(biāo)記出答案中的重點(diǎn)，提供權(quán)威的來源，以及根據(jù)用戶意圖制作圖片或進(jìn)行文案創(chuàng)作，重要的是所回答的問題都符合了用戶所問問題的主題。[5]不難看出，在用戶提問后，AI 虛擬數(shù)字人需要理解用戶的問題，并給出準(zhǔn)確的回答，如果AI 虛擬數(shù)字人的回答與用戶問題不相關(guān)，用戶可能會(huì)感到困惑和不滿。

由于以人為本的設(shè)計(jì)理念，人們期望在AI 虛擬數(shù)字人那里獲得具有效益的信息并且期望符合內(nèi)心的預(yù)測，Luke Balcombe 和 Diego De Leo 在《關(guān)于數(shù)字心理健康中的人機(jī)互動(dòng)》指出機(jī)器學(xué)習(xí)的可用性挑戰(zhàn)，包括開發(fā)和運(yùn)行模型需要足夠的技能和時(shí)間，用戶對模型缺乏信任，以及扎根于人機(jī)學(xué)習(xí)分歧的斗爭，重要的是建立信任，減少分歧，提高責(zé)任感，解釋模型的邏輯，量化對預(yù)測的具體貢獻(xiàn)，評估性能指標(biāo)，并說明以前研究的歷史預(yù)測。[6]AI 虛擬數(shù)字人需要建立起與用戶之間的信任，才能達(dá)成長期的關(guān)系，這里的信任很大程度上指的是互動(dòng)中給出信息的真實(shí)度和準(zhǔn)確度。而在這個(gè)環(huán)節(jié)之前，發(fā)音人作為“存放聲音的倉庫”，也就是語音庫，是按照詞語或者句組的方式錄制的聲音，然后集中存儲(chǔ)到一個(gè)數(shù)據(jù)庫中，通常語音庫的文件體積越大，處理文本的能力就越強(qiáng)，發(fā)音效果就越好，也就越接近于真人發(fā)音，從而增強(qiáng)AI 虛擬數(shù)字人的“真實(shí)感”。另外信息的準(zhǔn)確度來源之一是對互動(dòng)中自然語言的理解，這同樣需要在發(fā)音人工作階段有大量的文本積累，從而通過計(jì)算機(jī)算法進(jìn)行深度學(xué)習(xí)，更好地理解語義回答問題。在其他方面回答用戶問題的權(quán)威性和準(zhǔn)確性也來源于知識(shí)庫和企業(yè)信息庫，綜合來說這些都可以進(jìn)一步增強(qiáng)用戶與AI 虛擬數(shù)字人之間的信任感。

另一個(gè)必須考慮的方面是性別，這個(gè)領(lǐng)域的一些主要參與者，如蘋果、谷歌或亞馬遜，已經(jīng)確保設(shè)備不僅有類似人類的語調(diào)，而且是女性的語調(diào)，因?yàn)樗齻儽徽J(rèn)為是更溫暖的、更值得信任的、更容易理解的，總之，更容易被人喜歡。[7]彭蘭在《AIGC 與智能時(shí)代的新生存特征》中提到，虛擬形象對人的另一種反射，是它所內(nèi)隱的設(shè)計(jì)者的價(jià)值觀與文化，今天的智能機(jī)器在外觀上的設(shè)計(jì)更是如此，不管是外貌還是聲音，總是以女性為主，人類社會(huì)現(xiàn)有的性別偏見，通過設(shè)計(jì)者也延續(xù)到了機(jī)器身上。[8]這也是我們經(jīng)?？吹降囊恍┨摂M形象多是以女性角色出現(xiàn)的原因。

2.2 AI 虛擬數(shù)字人需要?jiǎng)?chuàng)造與用戶有效的情感互動(dòng)

AI 虛擬數(shù)字人需要與用戶進(jìn)行互動(dòng)，以了解用戶的需求和偏好，增強(qiáng)自身深度學(xué)習(xí)的效果。這可以通過語音交互、文本聊天、手勢識(shí)別等方式實(shí)現(xiàn)。而這些動(dòng)態(tài)交互不能只是有，還要準(zhǔn)確。機(jī)器像一面鏡子，反射著與之交流的人，影響其自我認(rèn)知。有研究者認(rèn)為，在人機(jī)交往中，虛擬的自我認(rèn)同與現(xiàn)實(shí)的自我認(rèn)同互相影響，共同建立起完整的“自我”。作為人的“化身”的虛擬交往對象，既讓“我”看到了另一個(gè)自己，也幫助“我”建立了“理想的他者”。[9]這也意味著這些互動(dòng)有時(shí)不單單是為了獲取信息，還可能是一種情感陪伴和自我療愈的過程，數(shù)字平臺(tái)和人工智能（AI）在改善心理健康護(hù)理和自殺預(yù)防服務(wù)的預(yù)測、識(shí)別、協(xié)調(diào)和治療方面具有良好的潛力。互動(dòng)式人工智能可能有助于在過時(shí)的、緊張的精神保健系統(tǒng)中進(jìn)行實(shí)時(shí)篩查和治療。[10]譬如：如果有人在數(shù)字平臺(tái)的輸入欄輸入“該如何自殺”，這時(shí)AI 虛擬數(shù)字人是否可以探測到異常，能自然并擬人化的與用戶溝通，聊天甚至開導(dǎo)。這都是值得討論的問題。發(fā)音人在此環(huán)節(jié)創(chuàng)造的價(jià)值是，通過自然、流暢的語音交互，使用戶與AI 虛擬數(shù)字人之間建立自然有效的情感互動(dòng)。例如，情感互動(dòng)需要一定情境和背景，也就是我們常說的虛擬互動(dòng)中的應(yīng)用場景，發(fā)音人在采集數(shù)據(jù)時(shí)，被要求需要在不同場景表達(dá)出譬如喜悅、難過、平靜、驚恐等一系列情緒的話語和表情動(dòng)作，并且體量很大，因此呈現(xiàn)在AI 虛擬數(shù)字人互動(dòng)中的各種情緒性表達(dá)一定意義上來說都是由發(fā)音人賦予，以此讓用戶感受到AI 虛擬數(shù)字人的親切感，增強(qiáng)情感互動(dòng)從而增強(qiáng)用戶的信任感。

2.3 AI 虛擬數(shù)字人需要給用戶提供個(gè)性化的建議和信息

基于大數(shù)據(jù)模型和計(jì)算機(jī)應(yīng)用的深度學(xué)習(xí)以及算法應(yīng)用，深度學(xué)習(xí)是AI 虛擬數(shù)字人在了解用戶習(xí)慣時(shí)經(jīng)常提到的詞，這需要AI 虛擬數(shù)字人在面對不同群體不同問題時(shí)表現(xiàn)出專業(yè)性以及內(nèi)容的垂直性，還是以百度AI 虛擬數(shù)字人度曉曉為例。2022 年度曉曉作答了全國新高考Ⅰ卷題為《本手、妙手、俗手》的議論文，拿下了48 分的高分，戰(zhàn)勝了超75%的考生，文章更是在全網(wǎng)刷屏，2023 年，在一場關(guān)于高考直播的中，百度“AI 伙伴”現(xiàn)場挑戰(zhàn)高考語文考試，包括作文、微寫作、古詩詞賞析、文言文翻譯等。一篇文言文作文甚至迷惑了資深語文老師莊臨旭，誤以為是真人所寫，給了很高的評價(jià)，認(rèn)為水平超過95%的同學(xué)。這樣的互動(dòng)實(shí)例就給了更多人愿意去嘗試AI 助手的信心。發(fā)音人在進(jìn)行前期基礎(chǔ)工作時(shí)，可以根據(jù)用戶需求和偏好，提供個(gè)性化的語音，比如根據(jù)用戶的興趣再合成相關(guān)的語音推薦。還可以通過其知識(shí)儲(chǔ)備和信息來源，提供各種豐富的信息和建議，發(fā)音人和技術(shù)的結(jié)合讓AI 虛擬數(shù)字人幫助用戶更好地理解和應(yīng)對各種情況，更好地解決問題獲得成長。

2.4 AI 虛擬數(shù)字人要具有一定程度的擬人化

擬人化被表示為 “一個(gè)形象看起來像人的程度”。[11]從AI 虛擬數(shù)字人的發(fā)展來看，幾乎所有的虛擬形象都有一個(gè)角色設(shè)定，這樣方便用戶能夠更好地理解他們的身份，角色設(shè)定應(yīng)該與應(yīng)用程序或網(wǎng)站的目標(biāo)相一致，并能夠?yàn)橛脩籼峁┯袃r(jià)值的服務(wù)。而且虛擬數(shù)字人的發(fā)展方向在于交互能力的提升和形象呈現(xiàn)的進(jìn)步，擬人化是發(fā)展的核心，表現(xiàn)為對真人的替代能力。彭蘭提出虛擬偶像部分采用的是“皮套”+“中之人”模式，對于虛擬數(shù)字人來說，發(fā)音人也類似于其中“中之人”，但與虛擬偶像的“中之人”不同的是，或許虛擬偶像的互動(dòng)與在數(shù)字平臺(tái)的表現(xiàn)可能就來自真實(shí)的人，而虛擬數(shù)字人的互動(dòng)表現(xiàn)是發(fā)音人語音和表情動(dòng)作的深度學(xué)習(xí)與算法合成，并且“中之人”不會(huì)表現(xiàn)出特定某個(gè)人的具體特征。在現(xiàn)存的文獻(xiàn)中，幾乎70%的文章指出，擬人化的表現(xiàn)對虛擬人物的發(fā)展至關(guān)重要，因?yàn)樗峁┝似渖鐣?huì)存在的線索，研究表明，虛擬人物越是擬人化，其可信度和熟練度就越高。[12]在Lisa Alazraki 和Ali Ghachem 等人在用于心理治療的人工智能聊天軟件的非臨床試驗(yàn)結(jié)果中得出，聊天軟件中類人角色得到了更多的最高范圍的回應(yīng)。[13]發(fā)音人如何在讓AI 虛擬數(shù)字人在深度學(xué)習(xí)后的互動(dòng)時(shí)擬人化程度高，最主要的是在表達(dá)時(shí)語流的流暢度高、不同場景下情緒的飽滿程度好、動(dòng)作表達(dá)更合時(shí)宜以及唇動(dòng)幅度明顯和自然。但是是否交互過程擬人化程度越高用戶的接受度就越高呢？這是下一步需要大量調(diào)研去驗(yàn)證的事情。

3. 發(fā)音人在人工智能領(lǐng)域的定義及作用

發(fā)音人是指掌握并運(yùn)用某種方言的人，在人工智能領(lǐng)域中，發(fā)音人是指為語音合成、語音識(shí)別、口語評測等人工智能技術(shù)提供聲音數(shù)據(jù)的人。發(fā)音人的聲音質(zhì)量、發(fā)音標(biāo)準(zhǔn)程度和口音特點(diǎn)等因素都會(huì)影響人工智能技術(shù)的性能和應(yīng)用效果。筆者從2015 年開始接觸并參與人工智能語音合成項(xiàng)目，工作是為智能語音項(xiàng)目做前期的發(fā)音和播報(bào)，落地的產(chǎn)品就是智能音箱，通過TTS 語音合成技術(shù)將輸入的文本合成為語音。然而在技術(shù)合成之前需要有一個(gè)足量的語音數(shù)據(jù)庫，以便在后期合成時(shí)，在計(jì)算機(jī)算法的支持下形成具體的語音內(nèi)容。2019 年開始參與AI 虛擬數(shù)字人的聲音及面部表情的采集工作，與智能語音項(xiàng)目不同的一點(diǎn)是，除了對發(fā)音人的聲音有要求外，對發(fā)音人的上鏡形象也有一定的要求，落地的產(chǎn)品就是具有動(dòng)畫形象的虛擬助手。因此，如何給數(shù)據(jù)賦能，重要之一就是發(fā)音人的語音和行為及面部動(dòng)作數(shù)據(jù)的采集。

3.1 人工智能語音及AI 虛擬數(shù)字人項(xiàng)目對發(fā)音人的要求

在發(fā)音人的選擇方面，也有一些固定的標(biāo)準(zhǔn)，尤其在智能語音項(xiàng)目中，發(fā)音人的語音質(zhì)量要足夠高，聲音要清晰、自然、流暢，沒有雜音和干擾。隨后就是對發(fā)音人音色的要求，這里說的音色并不是單純指其定義（指聲音的特色，也可以說是聲音的本質(zhì)，又叫音質(zhì)。是不同的聲音能夠相互區(qū)別的最基本的特征。它決定于物體振動(dòng)所形成的音波波紋的曲折形式不同。）而是發(fā)音人在不同場景下模擬出的聲音，在這一方面有點(diǎn)相似于配音演員。如發(fā)音人按要求模仿15歲左右的女生聲音，并且以俏皮可愛、生氣憤怒、撒嬌等情緒表達(dá)出來，在每個(gè)場景下需要的數(shù)據(jù)發(fā)音人大概要錄制三千句左右，但錄制的過程有嚴(yán)格的要求，需要每一句不論長短都保持同樣的音量、音高和音質(zhì)，也就是錄制過程中錄音師經(jīng)常對發(fā)音人提出的一項(xiàng)要求就是狀態(tài)要始終保持一致。錄制內(nèi)容上面則是隨機(jī)的，并不會(huì)根據(jù)情緒表達(dá)的不同而在文本上會(huì)有所設(shè)計(jì)，這樣是為了確?；A(chǔ)數(shù)據(jù)的準(zhǔn)確性和概括性。而對于年齡和性別在人工智能項(xiàng)目里的傾向，在之后會(huì)詳細(xì)闡明。

AI 虛擬數(shù)字人對發(fā)音人的要求在聲音方面跟智能語音項(xiàng)目大致相同，語速要適中，不要太快或太慢，同時(shí)要有適當(dāng)?shù)耐ｎD，以便后期AI 虛擬數(shù)字人能夠把語句意思與唇形變化匹配起來。發(fā)音人的聲音類型要與AI 虛擬數(shù)字人的形象和角色要求相符合，例如，如果是創(chuàng)建年輕女性的數(shù)字人，則需要年輕女性的聲音。除此之外，AI 虛擬數(shù)字人項(xiàng)目對發(fā)音人另一個(gè)重要的要求就是較好的上鏡形象，錄制時(shí)需要頭發(fā)扎好，顯露臉部，發(fā)音人臉部清晰明亮；口部正對攝像頭，面部與錄制手機(jī)保持平行；頭部動(dòng)作幅度不要太大，盡量保持一致；口型豐富、生動(dòng)、咬字清晰；錄制語速平穩(wěn)，句子與句子之間需要自然閉嘴。隨著技術(shù)的更新，采集數(shù)據(jù)的要求也變高了，在動(dòng)態(tài)捕捉方面更多開始往唇形的幅度靠攏，這里注重的是唇形變化的幅度而不是準(zhǔn)確度，因?yàn)樵谝曈X效果方面AI 虛擬數(shù)字人說出來的話要像真人一樣有唇動(dòng)的變化，加之面部眉眼的動(dòng)態(tài)，力求讓AI 虛擬數(shù)字人在與用戶交互的過程中能更生動(dòng)與自然，也就是更擬人化。

3.2 發(fā)音人數(shù)據(jù)采集的準(zhǔn)確度會(huì)影響AI 虛擬數(shù)字人的交互效果

發(fā)音人的工作對AI 虛擬數(shù)字人的影響很大，因?yàn)榘l(fā)音人是AI 虛擬數(shù)字人的聲音基礎(chǔ)和動(dòng)態(tài)表達(dá)的形象基礎(chǔ)，其聲音質(zhì)量、表達(dá)方式、語速、表情、唇形、動(dòng)作幅度等都會(huì)直接影響AI 虛擬數(shù)字人的交互效果。如果發(fā)音人的聲音質(zhì)量不好、表達(dá)方式不準(zhǔn)確、語速過快或過慢，都會(huì)導(dǎo)致AI 虛擬數(shù)字人的語音交互效果變差，甚至讓用戶無法理解或產(chǎn)生誤解。如果發(fā)音人的面部動(dòng)作捕捉幅度過小，顯示在AI 虛擬數(shù)字人上的動(dòng)態(tài)會(huì)非常不明顯，從而降低交互的效果。因此，選擇合適的發(fā)音人是非常重要的，需要考慮到發(fā)音人的語音質(zhì)量、表達(dá)方式、語速、動(dòng)作幅度等因素，以確保AI 虛擬數(shù)字人的交互效果良好。綜上所述，AI 虛擬數(shù)字人對發(fā)音人的要求比較高，需要發(fā)音人具備專業(yè)的語音知識(shí)和技能，同時(shí)要根據(jù)數(shù)字人的要求進(jìn)行針對性的語音錄制和表情動(dòng)作的調(diào)整。

3.3 發(fā)音人助力人工智能技術(shù)的性能多樣化發(fā)展

發(fā)音人可以為人工智能技術(shù)提供多語種、多地域的聲音數(shù)據(jù)，使人工智能技術(shù)的性能更加豐富和多樣化。筆者參與的AI 虛擬數(shù)字人項(xiàng)目主要以普通話為主，其間有少部分英文。發(fā)音人在語音和面部動(dòng)態(tài)捕捉方面的工作可以不斷優(yōu)化計(jì)算機(jī)深度學(xué)習(xí)算法，提高語音識(shí)別的準(zhǔn)確性和自然度，使虛擬數(shù)字人的發(fā)音更加準(zhǔn)確，面部表情和唇動(dòng)變化更加真實(shí)和自然。除了語音數(shù)據(jù)，還可以引入圖像、視頻、文本等多模態(tài)數(shù)據(jù)，通過多模態(tài)融合技術(shù)，提高虛擬數(shù)字人的智能和自然度，而在加強(qiáng)語言的理解方面則通過發(fā)音人提供的準(zhǔn)確標(biāo)準(zhǔn)的語音數(shù)據(jù)，通過強(qiáng)化學(xué)習(xí)等技術(shù)，提高虛擬數(shù)字人對不同語言的理解和表達(dá)能力，使其更好地適應(yīng)不同場景和用戶需求?；ヂ?lián)網(wǎng)產(chǎn)業(yè)時(shí)評人張書樂表示，虛擬數(shù)字人某種意義上是各大互聯(lián)網(wǎng)科技廠商展示“肌肉”的一個(gè)集中呈現(xiàn)物，即內(nèi)容創(chuàng)造、人工智能、動(dòng)作捕捉和各種與之相關(guān)技術(shù)的融合，本質(zhì)上虛擬數(shù)字人不誕生新技術(shù)，而是用受眾最容易理解的方式展示黑科技成果。[14]

3.4 發(fā)音人為AI 虛擬數(shù)字人的交互效果提供準(zhǔn)則

發(fā)音人可以為人工智能技術(shù)提供不同年齡、性別、文化背景、表情動(dòng)作等特征的聲音和形象數(shù)據(jù)，使得人工智能技術(shù)能夠更好地適應(yīng)不同的應(yīng)用場景和用戶需求。與智能語音的交互不同，AI 數(shù)字人的交互需要通過畫面的動(dòng)態(tài)形象來實(shí)現(xiàn)，而大量的基礎(chǔ)數(shù)據(jù)支持仍然來源于發(fā)音人，我作為發(fā)音人截至目前一共錄制了42.2 個(gè)成品小時(shí)的內(nèi)容，內(nèi)容的要求隨著產(chǎn)品的更新迭代也有不同，最初的19 個(gè)小時(shí)內(nèi)容的要求主要是面部表情的動(dòng)態(tài)識(shí)別，需要在不同的情緒下，如平靜、開心、憤怒、驚恐等展現(xiàn)不同的面部動(dòng)態(tài)，每個(gè)表情的錄制內(nèi)容在三千句左右。其中錄制最多的表情是平靜，以獲取更精準(zhǔn)的面部識(shí)別數(shù)據(jù)。之后的內(nèi)容則更加注重唇動(dòng)數(shù)據(jù)的采集，在表達(dá)內(nèi)容時(shí)要求唇形的變化要明顯，幅度要大要準(zhǔn)確，更像“真人”在表達(dá)。

3.5 發(fā)音人協(xié)助人工智能技術(shù)升級(jí)

發(fā)音人可以為人工智能技術(shù)提供聲音數(shù)據(jù)，并協(xié)助開發(fā)者進(jìn)行技術(shù)調(diào)試和優(yōu)化，提高人工智能技術(shù)的準(zhǔn)確性和可靠性。前文區(qū)分了AI 虛擬數(shù)字人、人工智能主播和虛擬偶像的區(qū)別，這三種人工智能角色在一定程度雖然都可以稱為AI 虛擬數(shù)字人，但值得注意的是，人工智能主播在真人數(shù)據(jù)采集，并以真人為原型作為基礎(chǔ)的情況下合成為智能主播時(shí)，在語音的采集和動(dòng)作捕捉上面相對容易一些，呈現(xiàn)出的2D 或者3D形象也更像真人，尤其在唇動(dòng)數(shù)據(jù)和動(dòng)作自然程度上更加貼切，這都是因?yàn)橐磺卸肌坝雄E可循”。而不以現(xiàn)實(shí)中真人形象作為基礎(chǔ)的AI 虛擬數(shù)字人則在語音的采集和動(dòng)作捕捉上面難度更大，還原到虛擬人物上時(shí)，唇動(dòng)數(shù)據(jù)和動(dòng)作自然程度的逼真度要低，這就要求發(fā)音人在進(jìn)行內(nèi)容表達(dá)的時(shí)候要做到絕對的準(zhǔn)確。

在采集的數(shù)據(jù)應(yīng)用到模型上之前，計(jì)算機(jī)需要對語音和面部動(dòng)態(tài)數(shù)據(jù)進(jìn)行深度學(xué)習(xí)，因?yàn)檫@進(jìn)一步影響到交互中語義理解的問題，在語音交互中，語義理解要處理的問題是用戶在口語化表達(dá)，也就是自然語言表達(dá)下的意圖，而現(xiàn)實(shí)生活中的自然語言表達(dá)通常存在上下文關(guān)聯(lián)、場景特定用語、口語化、常識(shí)背景、省略說法等語言現(xiàn)象，同時(shí)一些垂直領(lǐng)域?qū)嶓w取名復(fù)雜，存在大量實(shí)體歧義的現(xiàn)象（比如“三只羊”是一個(gè)通常詞匯，也是一個(gè)公司的名字）。場景、語境、交互對象的不斷切換讓語音交互中的語義理解更加困難。對于缺乏較大量訓(xùn)練數(shù)據(jù)的特定對話任務(wù)，為了提升模型的語義理解能力，通常還需要結(jié)合相應(yīng)實(shí)體或句式等其他資源，抑或者通過底層句子語義建模能力的提高來獲得泛化性能的增強(qiáng)。[15]在一些文章中會(huì)把AI 虛擬數(shù)字人稱為虛擬代理，其中的研究表明，虛擬代理在交互中的積極影響隨著代理的質(zhì)量而增加：虛擬代理越看起來越擬人化就越好。因此，代理功能的質(zhì)量，如作為類似人類的聲音、手勢、面部表情、眼睛注視和身體運(yùn)動(dòng)等發(fā)揮著重要作用。[16]而這些工作都需要處在基礎(chǔ)環(huán)節(jié)的發(fā)音人去完成。由此，我們提出AI 虛擬數(shù)字人的發(fā)展依靠技術(shù)升級(jí)的同時(shí)，還要結(jié)合更多方面，例如發(fā)音人在基礎(chǔ)工作中的表現(xiàn)。

4. AI 虛擬數(shù)字人和實(shí)驗(yàn)語音學(xué)之間存在密切的關(guān)系

AI 虛擬數(shù)字人喚起用戶的感知真實(shí)需要落到具體的交互過程中，體現(xiàn)在AI 虛擬數(shù)字人上就是在語言表達(dá)和面部動(dòng)作呈現(xiàn)尤其是唇動(dòng)數(shù)據(jù)的采集上，而落實(shí)在實(shí)操上面的語音和唇動(dòng)就與發(fā)音人在表達(dá)過程中與實(shí)驗(yàn)語音學(xué)之間的關(guān)系有關(guān)聯(lián)了。實(shí)驗(yàn)語音學(xué)是研究語音的生理、物理和心理因素的學(xué)科，而AI 虛擬數(shù)字人則是利用計(jì)算機(jī)技術(shù)和人工智能技術(shù)來創(chuàng)建和模擬人類語音的數(shù)字人物，兩者之間互相影響。在前文筆者也提到一直參與人工智能語音項(xiàng)目和AI 虛擬數(shù)字人數(shù)據(jù)采集工作，接下來筆者將以部分工作經(jīng)歷和發(fā)音人的采訪作為內(nèi)容分析的出發(fā)點(diǎn)和落腳點(diǎn)。

4.1 實(shí)驗(yàn)語音學(xué)的研究成果為AI 虛擬數(shù)字人提供重要的支持和參考

實(shí)驗(yàn)語音學(xué)可以通過對語音生成的生理和聲學(xué)機(jī)制的研究，開發(fā)出更準(zhǔn)確的語音識(shí)別算法和語音合成算法，使得虛擬數(shù)字人和智能語音工具的聲音更加自然和真實(shí)。實(shí)驗(yàn)語音學(xué)的研究成果可以為AI 虛擬數(shù)字人的語音合成、語音識(shí)別、語音評估等方面提供重要的支持和參考。例如，實(shí)驗(yàn)語音學(xué)的研究成果可以用于優(yōu)化AI 虛擬數(shù)字人的語音質(zhì)量、語音表達(dá)方式和語速等，從而提高其語音交互效果，喚起用戶在互動(dòng)中的交流真實(shí)感，激發(fā)交流欲望。筆者從事智能語音工作時(shí)，有一階段發(fā)音人需要在脖子上佩戴儀器監(jiān)測聲音發(fā)出時(shí)的振幅，但在進(jìn)行過程中很有難度，為了保證一致性，在統(tǒng)一情緒的表達(dá)下（如開心、難過、憤怒等）振幅差別太大需要重錄，并且儀器的佩戴需要緊貼脖子，發(fā)音人的表達(dá)舒適度降低，進(jìn)程也會(huì)放緩。而在這一過程中發(fā)音人要始終保持一個(gè)狀態(tài)，這是為了在固定場景下保證交流效果的統(tǒng)一性和準(zhǔn)確性，確保在真實(shí)交流環(huán)境下，用戶不會(huì)因?yàn)椴环€(wěn)定情緒而表達(dá)“出戲”。在前文提到的，進(jìn)行AI 虛擬數(shù)字人的發(fā)音人數(shù)據(jù)采集工作時(shí)，尤其注意唇動(dòng)數(shù)據(jù)的采集。但是從實(shí)驗(yàn)語音學(xué)的角度來講，正常人在日常表達(dá)中是有語流音變的，再加上發(fā)音規(guī)律中涉及唇形和舌位的變化，最后加上語境，很多句子和詞匯的在表達(dá)過程中唇形的變化就沒有那么的明顯，例如裊裊炊煙一詞，裊的發(fā)音在唇形的變化體現(xiàn)在從展唇到圓唇，但對于疊詞裊裊，如果想表現(xiàn)出語流的自然，唇形在建模系統(tǒng)中的采集就不會(huì)很明顯，呈現(xiàn)出來的就只是上下唇的輕微張合；再比如知識(shí)一詞，如果都按照展唇發(fā)音，就會(huì)出現(xiàn)聲音發(fā)出的時(shí)候唇部沒有變化。而在視頻互動(dòng)中缺少明顯的動(dòng)態(tài)表達(dá)，似乎是AI 虛擬數(shù)字人與用戶交互的大忌，那該如何改變呢？在整個(gè)錄制的過程中也達(dá)成了一種“規(guī)范”，在遇到唇動(dòng)不明顯的疊詞時(shí)，語速可以稍微放緩，唇動(dòng)的變化稍許夸張，動(dòng)程做到位，盡量體現(xiàn)出唇形的變化。對于zh、ch、sh 的組合發(fā)音，則可以輕微撮唇。在效果的呈現(xiàn)上，唇形的豐富度使得虛擬數(shù)字人在與用戶交互時(shí)更加自然流暢，機(jī)械感降低，擬人化程度也提高。但是與此同時(shí)實(shí)驗(yàn)語音學(xué)也需要大量的數(shù)據(jù)和實(shí)驗(yàn)來支持，來驗(yàn)證在多場景下部分唇動(dòng)的不規(guī)則變化是否會(huì)影響語音的語義理解，而這些數(shù)據(jù)和實(shí)驗(yàn)往往需要較高的成本和時(shí)間。

4.2 AI 虛擬數(shù)字人的發(fā)展為實(shí)驗(yàn)語音學(xué)的研究提供了新的方法和工具

例如，AI 虛擬數(shù)字人可以用于模擬不同條件下的語音信號(hào)和唇形數(shù)據(jù)，為實(shí)驗(yàn)語音學(xué)的研究提供可靠的實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境。大部分的數(shù)字虛擬助手都采用自然語言理解技術(shù)，可以解析用戶的語言，理解其含義，并作出相應(yīng)的回應(yīng)，除了普通話和外國語的區(qū)別之外，國內(nèi)的少數(shù)民族語言和方言的使用情況復(fù)雜，口音問題也在普通話的表現(xiàn)明顯，中國的方言有一百多種，而這一百多種方言可以細(xì)分到一個(gè)具體的地點(diǎn)，比如某市、某縣、某鎮(zhèn)、某村的方言，正所謂“十里不同音，百里不同俗”。中國有五十六個(gè)民族，在五十五個(gè)少數(shù)民族中，一個(gè)民族說一種語言的比較多，有的民族說兩種或兩種以上的語言，據(jù)統(tǒng)計(jì)，我國少數(shù)民族語言的數(shù)目在七十種以上。面對如此龐大的數(shù)量，AI 虛擬數(shù)字人的廣泛應(yīng)用可以為實(shí)驗(yàn)語音學(xué)的多方面研究帶來助力。還是以度曉曉為例，度曉曉基于多模態(tài)交互技術(shù)，可以實(shí)現(xiàn)語音識(shí)別、文本輸入、語音合成等多種交互方式，交互的頻次越多，數(shù)據(jù)就越豐富。度曉曉還具備機(jī)器翻譯能力，可以自動(dòng)翻譯語音或文本，為用戶提供多語言的服務(wù)，這樣可以吸引更多使用不同語言的群體。此外，度曉曉采用自然語言理解技術(shù)，可以解析用戶的語言，理解其含義，并作出相應(yīng)的回應(yīng)?；谏疃葘W(xué)習(xí)技術(shù)，可以進(jìn)行語音識(shí)別、文本分類、情感分析等任務(wù)，為用戶提供更加智能、個(gè)性化的服務(wù)，互動(dòng)方式和服務(wù)越完善，擬人化程度越高，就能吸引更多的用戶使用。AI 虛擬數(shù)字人和實(shí)驗(yàn)語音學(xué)共同推動(dòng)語音技術(shù)和人工智能技術(shù)的發(fā)展和應(yīng)用。

結(jié)語

人工智能技術(shù)的飛速發(fā)展，使AI 虛擬數(shù)字人在各個(gè)領(lǐng)域的應(yīng)用都越來越廣泛，人機(jī)交互技術(shù)的不斷提升，讓AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)方面變得越來越重要。通過分析現(xiàn)有研究，筆者發(fā)現(xiàn)AI 虛擬數(shù)字人在用戶關(guān)系建構(gòu)中的應(yīng)用主要集中在以下幾個(gè)方面：用戶體驗(yàn)、情感傳遞、行為影響等。其中從發(fā)音人的視角來看，發(fā)音人在數(shù)據(jù)采集的工作中發(fā)揮重要作用，提供的聲音數(shù)據(jù)是人工智能技術(shù)的基礎(chǔ)，為語音合成、語音識(shí)別、口語評測等技術(shù)提供訓(xùn)練和測試的數(shù)據(jù)。其聲音質(zhì)量、發(fā)音標(biāo)準(zhǔn)程度和口音特點(diǎn)等因素都會(huì)影響人工智能技術(shù)的性能和應(yīng)用效果。發(fā)音人可以為人工智能技術(shù)提供多語種、多地域的聲音數(shù)據(jù)，使得人工智能技術(shù)的性能更加豐富和多樣化。也能為人工智能技術(shù)提供不同年齡、性別、文化背景等特征的聲音數(shù)據(jù)，使得人工智能技術(shù)能夠更好地適應(yīng)不同的應(yīng)用場景和用戶需求，協(xié)助開發(fā)者進(jìn)行技術(shù)調(diào)試和優(yōu)化，提高人工智能技術(shù)的準(zhǔn)確性和可靠性，因此在AI 虛擬數(shù)字人的生產(chǎn)和設(shè)計(jì)過程中也參與解決了一個(gè)最核心的問題——與用戶的關(guān)系建構(gòu)。而在與實(shí)驗(yàn)語音學(xué)的相互影響中，也探討了更多理論在具體實(shí)踐中的差別與應(yīng)用，即唇動(dòng)的變化在擬人化表現(xiàn)和語義理解中的作用。最后，期望AI 虛擬數(shù)字人能夠應(yīng)用到更多的領(lǐng)域和場景中去。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)——發(fā)音人的視角