国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)
——發(fā)音人的視角

2023-02-06 20:19:22彭冬雪
中國傳媒科技 2023年12期
關(guān)鍵詞:主播發(fā)音語音

彭冬雪

( 云南藝術(shù)學(xué)院 ,云南 昆明 650500)

人工智能的應(yīng)用自落地以來,相關(guān)技術(shù)逐漸從理論研究和應(yīng)用研究走向落地實(shí)踐,互聯(lián)網(wǎng)和大數(shù)據(jù)的技術(shù)發(fā)展使得人工智能的數(shù)據(jù)和算法應(yīng)用也逐漸普及,隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用,AI 虛擬數(shù)字人也逐漸與其他技術(shù)和領(lǐng)域進(jìn)行融合,形成了更加復(fù)雜和綜合的應(yīng)用場景。而形成的大多數(shù)產(chǎn)品和應(yīng)用都與用戶使用脫不開關(guān)系,以往的文獻(xiàn)重在人機(jī)交互的層面,方向多是以“由下向上”為主,也就是在產(chǎn)品的服務(wù)環(huán)節(jié)上,多以用戶的需求為重點(diǎn),尤其在特定的場景下,如何迎合與適配用戶體驗(yàn)成為AIGC 產(chǎn)品尤其是AI 虛擬數(shù)字人的改進(jìn)目標(biāo)和方向。探討AI 虛擬數(shù)字人與用戶關(guān)系建構(gòu)的原理、方法和實(shí)際應(yīng)用是本文關(guān)注的重點(diǎn),尤其“發(fā)音人”的作用不容小覷。

1. AI 虛擬數(shù)字人的成長路徑

AI 虛擬數(shù)字人是一種具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產(chǎn)物,由計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語音合成等計(jì)算機(jī)手段創(chuàng)造及使用,具有語言交流、表情傳遞、行為決策等多種功能。AI 虛擬數(shù)字人從20世紀(jì)80 年代開始發(fā)展,起初受限于技術(shù),虛擬人制作以手繪和化妝為主,制作形式主要是2D、3D 動(dòng)畫,代表性虛擬偶像有:日本虛擬歌姬林明美和英國虛擬演員Max Headroom。到21 世紀(jì)初期,隨著CG 技術(shù)、動(dòng)作面部捕捉技術(shù)的發(fā)展,逐漸取代了傳統(tǒng)手繪,虛擬人開始加速運(yùn)用到影視行業(yè)。2007 年~2016 年,這個(gè)階段主要是音樂軟件的二次元虛擬形象,直到2016年被稱為人工智能元年,人工智能開始帶動(dòng)虛擬偶像的發(fā)展。2020 年至今是AI 虛擬數(shù)字人的成長階段。

AI 虛擬數(shù)字人可以應(yīng)用于虛擬助手、虛擬客服、虛擬偶像/主播等多個(gè)領(lǐng)域,但更強(qiáng)調(diào)其多重人類特征的模擬和呈現(xiàn)。目前比較成功的AI 虛擬數(shù)字人形象有以下:

清華數(shù)字學(xué)生“華智冰”是人工智能全新聊天機(jī)器人,能夠與人對話互動(dòng),作詩、作畫、作曲、翻譯,都游刃有余。柳夜熙是虛擬美妝博主,不僅擁有完美的身材和顏值,還會(huì)定期更新視頻,教網(wǎng)友如何化妝、如何搭配等。度曉曉、希加加是百度推出的AI 數(shù)字人,擁有二次元的形象,可以幫助人們搜索信息、回答問題等。

AI 虛擬數(shù)字人、人工智能主播和虛擬偶像都是基于人工智能技術(shù)創(chuàng)建的角色,但它們的應(yīng)用場景、功能和形態(tài)存在一些區(qū)別:人工智能主播是基于人工智能技術(shù)開發(fā)的,具有語音識(shí)別、語音合成、自然語言處理等功能,能夠與用戶進(jìn)行交互的虛擬主播。它通常被應(yīng)用于直播帶貨、新聞播報(bào)等領(lǐng)域,能夠自動(dòng)化地進(jìn)行播報(bào)和回答用戶的問題。我們在一些媒體平臺(tái)看到的人工智能主播有的是以真人主播為原型,比較有代表性的人工智能主播有:新華社首位AI 合成主播“新小浩”,搜狗聯(lián)合新華社推出的全球首個(gè)3D AI合成主播“新小微”,科大訊飛推出的AI 主播“康曉輝”和“時(shí)間小妮”,央視的AI 主播“小白”,女主播“新小萌”。

虛擬偶像是基于人工智能技術(shù)開發(fā)的,具有音樂表演、舞蹈表演、形象設(shè)計(jì)等功能的虛擬人物。它們通常被應(yīng)用于娛樂、音樂等領(lǐng)域,能夠進(jìn)行多樣化的表演和互動(dòng)。代表性的虛擬偶像有——翎:由魔琺科技與次世文化共同打造的虛擬偶 像,以京劇梅派第三代傳人的聲音,現(xiàn)場演繹梅蘭芳代表作《天女散花》,成為首個(gè)登上央視舞臺(tái)的虛擬偶像。其發(fā)布于社交平臺(tái)的內(nèi)容涉及琴棋書畫、梅蘭竹菊,均營造出一種“科技國風(fēng)感”。洛天依:上海禾念信息科技有限公司運(yùn)營的虛擬歌手,也是中國第一個(gè)擁有自己的專業(yè)聲庫和形象設(shè)定的虛擬歌手。ASoul:字節(jié)跳動(dòng)旗下品牌朝夕光年的虛擬偶像組合,包括嘉然、向晚、乃琳、貝拉和珈樂。A-SOUL 第二任看板娘:米哈游發(fā)布的一個(gè)二次元虛擬偶像。K/DA:韓國女子團(tuán)體,由阿貍、卡莎、莎彌拉和迦娜四位英雄組成。初音未來:CRYPTON FUTURE MEDIA 開發(fā)的音源庫,也是日本第一個(gè)使用全息投影技術(shù)舉辦演唱會(huì)的虛擬偶像。絆愛:日本女子團(tuán)體,也是世界上第一個(gè)虛擬主播。未來明:日本的一位虛擬主播,因其游戲和直播內(nèi)容而受到關(guān)注。七海Nana7mi:中國的一位虛擬主播,因其游戲和直播內(nèi)容而受到關(guān)注。時(shí)乃空:中國的一位虛擬主播,因其音樂和直播內(nèi)容而受到關(guān)注。

AI 虛擬數(shù)字人、人工智能主播和虛擬偶像雖然應(yīng)用于不同場景,但是他們之間還有一點(diǎn)不同 :“中之人”—發(fā)音人的作用不同。

2. AI 數(shù)字人如何喚起用戶的感知真實(shí)

AI 虛擬數(shù)字人是一種基于人工智能技術(shù)的虛擬形象,可以與用戶進(jìn)行交互和交往,日常中的互動(dòng)是社會(huì)上個(gè)人與個(gè)人之間,群體與群體之間等通過語言或其他手段傳播信息而發(fā)生的相互依賴性行為的過程,因此AI 虛擬數(shù)字人在與用戶互動(dòng)的過程中也應(yīng)該有一定的社會(huì)行為,以更好地實(shí)現(xiàn)人機(jī)互動(dòng)。人工智能、圖形學(xué)和機(jī)器人方面的進(jìn)展正在加速實(shí)現(xiàn)工具人身代理,如社交機(jī)器人、虛擬化身和數(shù)字人類。體現(xiàn)的虛擬人工代理的非語言行為是與現(xiàn)有媒介的關(guān)鍵區(qū)別。當(dāng)我們與具有人類外形的代理人互動(dòng)時(shí),我們自然希望他們能像人類一樣做一些社會(huì)行為,這通常被稱為“社會(huì)負(fù)擔(dān)”,這種非語言行為在許多人與人的互動(dòng)和人與代理的互動(dòng)研究中被證明是有效的。代理人適當(dāng)?shù)氖謩莺捅砬橛兄诮沂敬砣说囊鈭D,使聽眾集中注意力,并與人類建立融洽的關(guān)系。[1]個(gè)人與具有類似人類存在的物體互動(dòng)的方式與無生命的物體不同。他們傾向于將類似的社會(huì)規(guī)則賦予具有人類外觀的計(jì)算機(jī)技術(shù),盡管他們完全意識(shí)到他們在與機(jī)器互動(dòng)。擬人化的存在引起了個(gè)人的基本社會(huì)腳本,如禮貌和互惠,這導(dǎo)致了與機(jī)器的情感、認(rèn)知和社會(huì)反應(yīng)。過去的研究表明,非人類伙伴的可感知的人類相似性是寄生社會(huì)互動(dòng)發(fā)生的重要前提,這使得它是真實(shí)的而不是虛構(gòu)的。寄生社會(huì)關(guān)系的發(fā)展取決于對應(yīng)方的真實(shí)性、現(xiàn)實(shí)性或可信度水平。[2]如何建立與用戶的真實(shí)的交往關(guān)系?在關(guān)系的這一層面里具有很多維度:情感關(guān)系、建立信任、互動(dòng)的有效性等。接下來筆者將以百度的AI 虛擬數(shù)字人度曉曉為例,在多方面進(jìn)行分析。

2.1 AI 虛擬數(shù)字人需要與用戶建立信任

信任被定義為某人愿意在某個(gè)問題、背景或信息方面變得易受影響。[3]這就是為什么當(dāng)涉及人機(jī)交互時(shí),信任具有特殊的重要性,用戶需要信任和依賴數(shù)字代理或虛擬助手,因?yàn)樗麄儽仨毚硭麄冃惺?。[4]度曉曉是百度公司推出的手機(jī)虛擬AI 助手,是國內(nèi)首個(gè)可交互虛擬數(shù)字人。度曉曉具備較為完整的語音交互體驗(yàn),與以往的智能音箱一樣,用戶通過語音喚醒App,就可以進(jìn)行1to1 的對話體驗(yàn)。除了能回答用戶的問題外,還可以主動(dòng)感知用戶需求,分析用戶的行為、興趣和環(huán)境等信息進(jìn)行智能分析,主動(dòng)為用戶提供服務(wù)。目前度曉曉的應(yīng)用場景也比較豐富,包括語音交互、內(nèi)容創(chuàng)作、知識(shí)回答、情感陪伴等。而用戶對互動(dòng)的內(nèi)容也會(huì)有一個(gè)基本的判斷和要求,互動(dòng)是自然的,并且這些服務(wù)以及提供的信息必須是真實(shí)的有效的。在今年5 月底舉行的2023 萬象·百度移動(dòng)生態(tài)大會(huì)上,肖陽就演示了“AI 伙伴”的能力?;?dòng)過程中,這位“Al 伙伴”,能夠聽懂用戶的任何問題,并用語音進(jìn)行互動(dòng),同時(shí)為用戶標(biāo)記出答案中的重點(diǎn),提供權(quán)威的來源,以及根據(jù)用戶意圖制作圖片或進(jìn)行文案創(chuàng)作,重要的是所回答的問題都符合了用戶所問問題的主題。[5]不難看出,在用戶提問后,AI 虛擬數(shù)字人需要理解用戶的問題,并給出準(zhǔn)確的回答,如果AI 虛擬數(shù)字人的回答與用戶問題不相關(guān),用戶可能會(huì)感到困惑和不滿。

由于以人為本的設(shè)計(jì)理念,人們期望在AI 虛擬數(shù)字人那里獲得具有效益的信息并且期望符合內(nèi)心的預(yù)測,Luke Balcombe 和 Diego De Leo 在《關(guān)于數(shù)字心理健康中的人機(jī)互動(dòng)》指出機(jī)器學(xué)習(xí)的可用性挑戰(zhàn),包括開發(fā)和運(yùn)行模型需要足夠的技能和時(shí)間,用戶對模型缺乏信任,以及扎根于人機(jī)學(xué)習(xí)分歧的斗爭,重要的是建立信任,減少分歧,提高責(zé)任感,解釋模型的邏輯,量化對預(yù)測的具體貢獻(xiàn),評估性能指標(biāo),并說明以前研究的歷史預(yù)測。[6]AI 虛擬數(shù)字人需要建立起與用戶之間的信任,才能達(dá)成長期的關(guān)系,這里的信任很大程度上指的是互動(dòng)中給出信息的真實(shí)度和準(zhǔn)確度。而在這個(gè)環(huán)節(jié)之前,發(fā)音人作為“存放聲音的倉庫”,也就是語音庫,是按照詞語或者句組的方式錄制的聲音,然后集中存儲(chǔ)到一個(gè)數(shù)據(jù)庫中,通常語音庫的文件體積越大,處理文本的能力就越強(qiáng),發(fā)音效果就越好,也就越接近于真人發(fā)音,從而增強(qiáng)AI 虛擬數(shù)字人的“真實(shí)感”。另外信息的準(zhǔn)確度來源之一是對互動(dòng)中自然語言的理解,這同樣需要在發(fā)音人工作階段有大量的文本積累,從而通過計(jì)算機(jī)算法進(jìn)行深度學(xué)習(xí),更好地理解語義回答問題。在其他方面回答用戶問題的權(quán)威性和準(zhǔn)確性也來源于知識(shí)庫和企業(yè)信息庫,綜合來說這些都可以進(jìn)一步增強(qiáng)用戶與AI 虛擬數(shù)字人之間的信任感。

另一個(gè)必須考慮的方面是性別,這個(gè)領(lǐng)域的一些主要參與者,如蘋果、谷歌或亞馬遜,已經(jīng)確保設(shè)備不僅有類似人類的語調(diào),而且是女性的語調(diào),因?yàn)樗齻儽徽J(rèn)為是更溫暖的、更值得信任的、更容易理解的,總之,更容易被人喜歡。[7]彭蘭在《AIGC 與智能時(shí)代的新生存特征》中提到,虛擬形象對人的另一種反射,是它所內(nèi)隱的設(shè)計(jì)者的價(jià)值觀與文化,今天的智能機(jī)器在外觀上的設(shè)計(jì)更是如此,不管是外貌還是聲音,總是以女性為主,人類社會(huì)現(xiàn)有的性別偏見,通過設(shè)計(jì)者也延續(xù)到了機(jī)器身上。[8]這也是我們經(jīng)??吹降囊恍┨摂M形象多是以女性角色出現(xiàn)的原因。

2.2 AI 虛擬數(shù)字人需要?jiǎng)?chuàng)造與用戶有效的情感互動(dòng)

AI 虛擬數(shù)字人需要與用戶進(jìn)行互動(dòng),以了解用戶的需求和偏好,增強(qiáng)自身深度學(xué)習(xí)的效果。這可以通過語音交互、文本聊天、手勢識(shí)別等方式實(shí)現(xiàn)。而這些動(dòng)態(tài)交互不能只是有,還要準(zhǔn)確。機(jī)器像一面鏡子,反射著與之交流的人,影響其自我認(rèn)知。有研究者認(rèn)為,在人機(jī)交往中,虛擬的自我認(rèn)同與現(xiàn)實(shí)的自我認(rèn)同互相影響,共同建立起完整的“自我”。作為人的“化身”的虛擬交往對象,既讓“我”看到了另一個(gè)自己,也幫助“我”建立了“理想的他者”。[9]這也意味著這些互動(dòng)有時(shí)不單單是為了獲取信息,還可能是一種情感陪伴和自我療愈的過程,數(shù)字平臺(tái)和人工智能(AI)在改善心理健康護(hù)理和自殺預(yù)防服務(wù)的預(yù)測、識(shí)別、協(xié)調(diào)和治療方面具有良好的潛力。互動(dòng)式人工智能可能有助于在過時(shí)的、緊張的精神保健系統(tǒng)中進(jìn)行實(shí)時(shí)篩查和治療。[10]譬如:如果有人在數(shù)字平臺(tái)的輸入欄輸入“該如何自殺”,這時(shí)AI 虛擬數(shù)字人是否可以探測到異常,能自然并擬人化的與用戶溝通,聊天甚至開導(dǎo)。這都是值得討論的問題。發(fā)音人在此環(huán)節(jié)創(chuàng)造的價(jià)值是,通過自然、流暢的語音交互,使用戶與AI 虛擬數(shù)字人之間建立自然有效的情感互動(dòng)。例如,情感互動(dòng)需要一定情境和背景,也就是我們常說的虛擬互動(dòng)中的應(yīng)用場景,發(fā)音人在采集數(shù)據(jù)時(shí),被要求需要在不同場景表達(dá)出譬如喜悅、難過、平靜、驚恐等一系列情緒的話語和表情動(dòng)作,并且體量很大,因此呈現(xiàn)在AI 虛擬數(shù)字人互動(dòng)中的各種情緒性表達(dá)一定意義上來說都是由發(fā)音人賦予,以此讓用戶感受到AI 虛擬數(shù)字人的親切感,增強(qiáng)情感互動(dòng)從而增強(qiáng)用戶的信任感。

2.3 AI 虛擬數(shù)字人需要給用戶提供個(gè)性化的建議和信息

基于大數(shù)據(jù)模型和計(jì)算機(jī)應(yīng)用的深度學(xué)習(xí)以及算法應(yīng)用,深度學(xué)習(xí)是AI 虛擬數(shù)字人在了解用戶習(xí)慣時(shí)經(jīng)常提到的詞,這需要AI 虛擬數(shù)字人在面對不同群體不同問題時(shí)表現(xiàn)出專業(yè)性以及內(nèi)容的垂直性,還是以百度AI 虛擬數(shù)字人度曉曉為例。2022 年度曉曉作答了全國新高考Ⅰ卷題為《本手、妙手、俗手》的議論文,拿下了48 分的高分,戰(zhàn)勝了超75%的考生,文章更是在全網(wǎng)刷屏,2023 年,在一場關(guān)于高考直播的中,百度“AI 伙伴”現(xiàn)場挑戰(zhàn)高考語文考試,包括作文、微寫作、古詩詞賞析、文言文翻譯等。一篇文言文作文甚至迷惑了資深語文老師莊臨旭,誤以為是真人所寫,給了很高的評價(jià),認(rèn)為水平超過95%的同學(xué)。這樣的互動(dòng)實(shí)例就給了更多人愿意去嘗試AI 助手的信心。發(fā)音人在進(jìn)行前期基礎(chǔ)工作時(shí),可以根據(jù)用戶需求和偏好,提供個(gè)性化的語音,比如根據(jù)用戶的興趣再合成相關(guān)的語音推薦。還可以通過其知識(shí)儲(chǔ)備和信息來源,提供各種豐富的信息和建議,發(fā)音人和技術(shù)的結(jié)合讓AI 虛擬數(shù)字人幫助用戶更好地理解和應(yīng)對各種情況,更好地解決問題獲得成長。

2.4 AI 虛擬數(shù)字人要具有一定程度的擬人化

擬人化被表示為 “一個(gè)形象看起來像人的程度”。[11]從AI 虛擬數(shù)字人的發(fā)展來看,幾乎所有的虛擬形象都有一個(gè)角色設(shè)定,這樣方便用戶能夠更好地理解他們的身份,角色設(shè)定應(yīng)該與應(yīng)用程序或網(wǎng)站的目標(biāo)相一致,并能夠?yàn)橛脩籼峁┯袃r(jià)值的服務(wù)。而且虛擬數(shù)字人的發(fā)展方向在于交互能力的提升和形象呈現(xiàn)的進(jìn)步,擬人化是發(fā)展的核心,表現(xiàn)為對真人的替代能力。彭蘭提出虛擬偶像部分采用的是“皮套”+“中之人”模式,對于虛擬數(shù)字人來說,發(fā)音人也類似于其中“中之人”,但與虛擬偶像的“中之人”不同的是,或許虛擬偶像的互動(dòng)與在數(shù)字平臺(tái)的表現(xiàn)可能就來自真實(shí)的人,而虛擬數(shù)字人的互動(dòng)表現(xiàn)是發(fā)音人語音和表情動(dòng)作的深度學(xué)習(xí)與算法合成,并且“中之人”不會(huì)表現(xiàn)出特定某個(gè)人的具體特征。在現(xiàn)存的文獻(xiàn)中,幾乎70%的文章指出,擬人化的表現(xiàn)對虛擬人物的發(fā)展至關(guān)重要,因?yàn)樗峁┝似渖鐣?huì)存在的線索,研究表明,虛擬人物越是擬人化,其可信度和熟練度就越高。[12]在Lisa Alazraki 和Ali Ghachem 等人在用于心理治療的人工智能聊天軟件的非臨床試驗(yàn)結(jié)果中得出,聊天軟件中類人角色得到了更多的最高范圍的回應(yīng)。[13]發(fā)音人如何在讓AI 虛擬數(shù)字人在深度學(xué)習(xí)后的互動(dòng)時(shí)擬人化程度高,最主要的是在表達(dá)時(shí)語流的流暢度高、不同場景下情緒的飽滿程度好、動(dòng)作表達(dá)更合時(shí)宜以及唇動(dòng)幅度明顯和自然。但是是否交互過程擬人化程度越高用戶的接受度就越高呢?這是下一步需要大量調(diào)研去驗(yàn)證的事情。

3. 發(fā)音人在人工智能領(lǐng)域的定義及作用

發(fā)音人是指掌握并運(yùn)用某種方言的人,在人工智能領(lǐng)域中,發(fā)音人是指為語音合成、語音識(shí)別、口語評測等人工智能技術(shù)提供聲音數(shù)據(jù)的人。發(fā)音人的聲音質(zhì)量、發(fā)音標(biāo)準(zhǔn)程度和口音特點(diǎn)等因素都會(huì)影響人工智能技術(shù)的性能和應(yīng)用效果。筆者從2015 年開始接觸并參與人工智能語音合成項(xiàng)目,工作是為智能語音項(xiàng)目做前期的發(fā)音和播報(bào),落地的產(chǎn)品就是智能音箱,通過TTS 語音合成技術(shù)將輸入的文本合成為語音。然而在技術(shù)合成之前需要有一個(gè)足量的語音數(shù)據(jù)庫,以便在后期合成時(shí),在計(jì)算機(jī)算法的支持下形成具體的語音內(nèi)容。2019 年開始參與AI 虛擬數(shù)字人的聲音及面部表情的采集工作,與智能語音項(xiàng)目不同的一點(diǎn)是,除了對發(fā)音人的聲音有要求外,對發(fā)音人的上鏡形象也有一定的要求,落地的產(chǎn)品就是具有動(dòng)畫形象的虛擬助手。因此,如何給數(shù)據(jù)賦能,重要之一就是發(fā)音人的語音和行為及面部動(dòng)作數(shù)據(jù)的采集。

3.1 人工智能語音及AI 虛擬數(shù)字人項(xiàng)目對發(fā)音人的要求

在發(fā)音人的選擇方面,也有一些固定的標(biāo)準(zhǔn),尤其在智能語音項(xiàng)目中,發(fā)音人的語音質(zhì)量要足夠高,聲音要清晰、自然、流暢,沒有雜音和干擾。隨后就是對發(fā)音人音色的要求,這里說的音色并不是單純指其定義(指聲音的特色,也可以說是聲音的本質(zhì),又叫音質(zhì)。是不同的聲音能夠相互區(qū)別的最基本的特征。它決定于物體振動(dòng)所形成的音波波紋的曲折形式不同。)而是發(fā)音人在不同場景下模擬出的聲音,在這一方面有點(diǎn)相似于配音演員。如發(fā)音人按要求模仿15歲左右的女生聲音,并且以俏皮可愛、生氣憤怒、撒嬌等情緒表達(dá)出來,在每個(gè)場景下需要的數(shù)據(jù)發(fā)音人大概要錄制三千句左右,但錄制的過程有嚴(yán)格的要求,需要每一句不論長短都保持同樣的音量、音高和音質(zhì),也就是錄制過程中錄音師經(jīng)常對發(fā)音人提出的一項(xiàng)要求就是狀態(tài)要始終保持一致。錄制內(nèi)容上面則是隨機(jī)的,并不會(huì)根據(jù)情緒表達(dá)的不同而在文本上會(huì)有所設(shè)計(jì),這樣是為了確?;A(chǔ)數(shù)據(jù)的準(zhǔn)確性和概括性。而對于年齡和性別在人工智能項(xiàng)目里的傾向,在之后會(huì)詳細(xì)闡明。

AI 虛擬數(shù)字人對發(fā)音人的要求在聲音方面跟智能語音項(xiàng)目大致相同,語速要適中,不要太快或太慢,同時(shí)要有適當(dāng)?shù)耐nD,以便后期AI 虛擬數(shù)字人能夠把語句意思與唇形變化匹配起來。發(fā)音人的聲音類型要與AI 虛擬數(shù)字人的形象和角色要求相符合,例如,如果是創(chuàng)建年輕女性的數(shù)字人,則需要年輕女性的聲音。除此之外,AI 虛擬數(shù)字人項(xiàng)目對發(fā)音人另一個(gè)重要的要求就是較好的上鏡形象,錄制時(shí)需要頭發(fā)扎好,顯露臉部,發(fā)音人臉部清晰明亮;口部正對攝像頭,面部與錄制手機(jī)保持平行;頭部動(dòng)作幅度不要太大,盡量保持一致;口型豐富、生動(dòng)、咬字清晰;錄制語速平穩(wěn),句子與句子之間需要自然閉嘴。隨著技術(shù)的更新,采集數(shù)據(jù)的要求也變高了,在動(dòng)態(tài)捕捉方面更多開始往唇形的幅度靠攏,這里注重的是唇形變化的幅度而不是準(zhǔn)確度,因?yàn)樵谝曈X效果方面AI 虛擬數(shù)字人說出來的話要像真人一樣有唇動(dòng)的變化,加之面部眉眼的動(dòng)態(tài),力求讓AI 虛擬數(shù)字人在與用戶交互的過程中能更生動(dòng)與自然,也就是更擬人化。

3.2 發(fā)音人數(shù)據(jù)采集的準(zhǔn)確度會(huì)影響AI 虛擬數(shù)字人的交互效果

發(fā)音人的工作對AI 虛擬數(shù)字人的影響很大,因?yàn)榘l(fā)音人是AI 虛擬數(shù)字人的聲音基礎(chǔ)和動(dòng)態(tài)表達(dá)的形象基礎(chǔ),其聲音質(zhì)量、表達(dá)方式、語速、表情、唇形、動(dòng)作幅度等都會(huì)直接影響AI 虛擬數(shù)字人的交互效果。如果發(fā)音人的聲音質(zhì)量不好、表達(dá)方式不準(zhǔn)確、語速過快或過慢,都會(huì)導(dǎo)致AI 虛擬數(shù)字人的語音交互效果變差,甚至讓用戶無法理解或產(chǎn)生誤解。如果發(fā)音人的面部動(dòng)作捕捉幅度過小,顯示在AI 虛擬數(shù)字人上的動(dòng)態(tài)會(huì)非常不明顯,從而降低交互的效果。因此,選擇合適的發(fā)音人是非常重要的,需要考慮到發(fā)音人的語音質(zhì)量、表達(dá)方式、語速、動(dòng)作幅度等因素,以確保AI 虛擬數(shù)字人的交互效果良好。綜上所述,AI 虛擬數(shù)字人對發(fā)音人的要求比較高,需要發(fā)音人具備專業(yè)的語音知識(shí)和技能,同時(shí)要根據(jù)數(shù)字人的要求進(jìn)行針對性的語音錄制和表情動(dòng)作的調(diào)整。

3.3 發(fā)音人助力人工智能技術(shù)的性能多樣化發(fā)展

發(fā)音人可以為人工智能技術(shù)提供多語種、多地域的聲音數(shù)據(jù),使人工智能技術(shù)的性能更加豐富和多樣化。筆者參與的AI 虛擬數(shù)字人項(xiàng)目主要以普通話為主,其間有少部分英文。發(fā)音人在語音和面部動(dòng)態(tài)捕捉方面的工作可以不斷優(yōu)化計(jì)算機(jī)深度學(xué)習(xí)算法,提高語音識(shí)別的準(zhǔn)確性和自然度,使虛擬數(shù)字人的發(fā)音更加準(zhǔn)確,面部表情和唇動(dòng)變化更加真實(shí)和自然。除了語音數(shù)據(jù),還可以引入圖像、視頻、文本等多模態(tài)數(shù)據(jù),通過多模態(tài)融合技術(shù),提高虛擬數(shù)字人的智能和自然度,而在加強(qiáng)語言的理解方面則通過發(fā)音人提供的準(zhǔn)確標(biāo)準(zhǔn)的語音數(shù)據(jù),通過強(qiáng)化學(xué)習(xí)等技術(shù),提高虛擬數(shù)字人對不同語言的理解和表達(dá)能力,使其更好地適應(yīng)不同場景和用戶需求?;ヂ?lián)網(wǎng)產(chǎn)業(yè)時(shí)評人張書樂表示,虛擬數(shù)字人某種意義上是各大互聯(lián)網(wǎng)科技廠商展示“肌肉”的一個(gè)集中呈現(xiàn)物,即內(nèi)容創(chuàng)造、人工智能、動(dòng)作捕捉和各種與之相關(guān)技術(shù)的融合,本質(zhì)上虛擬數(shù)字人不誕生新技術(shù),而是用受眾最容易理解的方式展示黑科技成果。[14]

3.4 發(fā)音人為AI 虛擬數(shù)字人的交互效果提供準(zhǔn)則

發(fā)音人可以為人工智能技術(shù)提供不同年齡、性別、文化背景、表情動(dòng)作等特征的聲音和形象數(shù)據(jù),使得人工智能技術(shù)能夠更好地適應(yīng)不同的應(yīng)用場景和用戶需求。與智能語音的交互不同,AI 數(shù)字人的交互需要通過畫面的動(dòng)態(tài)形象來實(shí)現(xiàn),而大量的基礎(chǔ)數(shù)據(jù)支持仍然來源于發(fā)音人,我作為發(fā)音人截至目前一共錄制了42.2 個(gè)成品小時(shí)的內(nèi)容,內(nèi)容的要求隨著產(chǎn)品的更新迭代也有不同,最初的19 個(gè)小時(shí)內(nèi)容的要求主要是面部表情的動(dòng)態(tài)識(shí)別,需要在不同的情緒下,如平靜、開心、憤怒、驚恐等展現(xiàn)不同的面部動(dòng)態(tài),每個(gè)表情的錄制內(nèi)容在三千句左右。其中錄制最多的表情是平靜,以獲取更精準(zhǔn)的面部識(shí)別數(shù)據(jù)。之后的內(nèi)容則更加注重唇動(dòng)數(shù)據(jù)的采集,在表達(dá)內(nèi)容時(shí)要求唇形的變化要明顯,幅度要大要準(zhǔn)確,更像“真人”在表達(dá)。

3.5 發(fā)音人協(xié)助人工智能技術(shù)升級(jí)

發(fā)音人可以為人工智能技術(shù)提供聲音數(shù)據(jù),并協(xié)助開發(fā)者進(jìn)行技術(shù)調(diào)試和優(yōu)化,提高人工智能技術(shù)的準(zhǔn)確性和可靠性。前文區(qū)分了AI 虛擬數(shù)字人、人工智能主播和虛擬偶像的區(qū)別,這三種人工智能角色在一定程度雖然都可以稱為AI 虛擬數(shù)字人,但值得注意的是,人工智能主播在真人數(shù)據(jù)采集,并以真人為原型作為基礎(chǔ)的情況下合成為智能主播時(shí),在語音的采集和動(dòng)作捕捉上面相對容易一些,呈現(xiàn)出的2D 或者3D形象也更像真人,尤其在唇動(dòng)數(shù)據(jù)和動(dòng)作自然程度上更加貼切,這都是因?yàn)橐磺卸肌坝雄E可循”。而不以現(xiàn)實(shí)中真人形象作為基礎(chǔ)的AI 虛擬數(shù)字人則在語音的采集和動(dòng)作捕捉上面難度更大,還原到虛擬人物上時(shí),唇動(dòng)數(shù)據(jù)和動(dòng)作自然程度的逼真度要低,這就要求發(fā)音人在進(jìn)行內(nèi)容表達(dá)的時(shí)候要做到絕對的準(zhǔn)確。

在采集的數(shù)據(jù)應(yīng)用到模型上之前,計(jì)算機(jī)需要對語音和面部動(dòng)態(tài)數(shù)據(jù)進(jìn)行深度學(xué)習(xí),因?yàn)檫@進(jìn)一步影響到交互中語義理解的問題,在語音交互中,語義理解要處理的問題是用戶在口語化表達(dá),也就是自然語言表達(dá)下的意圖,而現(xiàn)實(shí)生活中的自然語言表達(dá)通常存在上下文關(guān)聯(lián)、場景特定用語、口語化、常識(shí)背景、省略說法等語言現(xiàn)象,同時(shí)一些垂直領(lǐng)域?qū)嶓w取名復(fù)雜,存在大量實(shí)體歧義的現(xiàn)象(比如“三只羊”是一個(gè)通常詞匯,也是一個(gè)公司的名字)。場景、語境、交互對象的不斷切換讓語音交互中的語義理解更加困難。對于缺乏較大量訓(xùn)練數(shù)據(jù)的特定對話任務(wù),為了提升模型的語義理解能力,通常還需要結(jié)合相應(yīng)實(shí)體或句式等其他資源,抑或者通過底層句子語義建模能力的提高來獲得泛化性能的增強(qiáng)。[15]在一些文章中會(huì)把AI 虛擬數(shù)字人稱為虛擬代理,其中的研究表明,虛擬代理在交互中的積極影響隨著代理的質(zhì)量而增加:虛擬代理越看起來越擬人化就越好。因此,代理功能的質(zhì)量,如作為類似人類的聲音、手勢、面部表情、眼睛注視和身體運(yùn)動(dòng)等發(fā)揮著重要作用。[16]而這些工作都需要處在基礎(chǔ)環(huán)節(jié)的發(fā)音人去完成。由此,我們提出AI 虛擬數(shù)字人的發(fā)展依靠技術(shù)升級(jí)的同時(shí),還要結(jié)合更多方面,例如發(fā)音人在基礎(chǔ)工作中的表現(xiàn)。

4. AI 虛擬數(shù)字人和實(shí)驗(yàn)語音學(xué)之間存在密切的關(guān)系

AI 虛擬數(shù)字人喚起用戶的感知真實(shí)需要落到具體的交互過程中,體現(xiàn)在AI 虛擬數(shù)字人上就是在語言表達(dá)和面部動(dòng)作呈現(xiàn)尤其是唇動(dòng)數(shù)據(jù)的采集上,而落實(shí)在實(shí)操上面的語音和唇動(dòng)就與發(fā)音人在表達(dá)過程中與實(shí)驗(yàn)語音學(xué)之間的關(guān)系有關(guān)聯(lián)了。實(shí)驗(yàn)語音學(xué)是研究語音的生理、物理和心理因素的學(xué)科,而AI 虛擬數(shù)字人則是利用計(jì)算機(jī)技術(shù)和人工智能技術(shù)來創(chuàng)建和模擬人類語音的數(shù)字人物,兩者之間互相影響。在前文筆者也提到一直參與人工智能語音項(xiàng)目和AI 虛擬數(shù)字人數(shù)據(jù)采集工作,接下來筆者將以部分工作經(jīng)歷和發(fā)音人的采訪作為內(nèi)容分析的出發(fā)點(diǎn)和落腳點(diǎn)。

4.1 實(shí)驗(yàn)語音學(xué)的研究成果為AI 虛擬數(shù)字人提供重要的支持和參考

實(shí)驗(yàn)語音學(xué)可以通過對語音生成的生理和聲學(xué)機(jī)制的研究,開發(fā)出更準(zhǔn)確的語音識(shí)別算法和語音合成算法,使得虛擬數(shù)字人和智能語音工具的聲音更加自然和真實(shí)。實(shí)驗(yàn)語音學(xué)的研究成果可以為AI 虛擬數(shù)字人的語音合成、語音識(shí)別、語音評估等方面提供重要的支持和參考。例如,實(shí)驗(yàn)語音學(xué)的研究成果可以用于優(yōu)化AI 虛擬數(shù)字人的語音質(zhì)量、語音表達(dá)方式和語速等,從而提高其語音交互效果,喚起用戶在互動(dòng)中的交流真實(shí)感,激發(fā)交流欲望。筆者從事智能語音工作時(shí),有一階段發(fā)音人需要在脖子上佩戴儀器監(jiān)測聲音發(fā)出時(shí)的振幅,但在進(jìn)行過程中很有難度,為了保證一致性,在統(tǒng)一情緒的表達(dá)下(如開心、難過、憤怒等)振幅差別太大需要重錄,并且儀器的佩戴需要緊貼脖子,發(fā)音人的表達(dá)舒適度降低,進(jìn)程也會(huì)放緩。而在這一過程中發(fā)音人要始終保持一個(gè)狀態(tài),這是為了在固定場景下保證交流效果的統(tǒng)一性和準(zhǔn)確性,確保在真實(shí)交流環(huán)境下,用戶不會(huì)因?yàn)椴环€(wěn)定情緒而表達(dá)“出戲”。在前文提到的,進(jìn)行AI 虛擬數(shù)字人的發(fā)音人數(shù)據(jù)采集工作時(shí),尤其注意唇動(dòng)數(shù)據(jù)的采集。但是從實(shí)驗(yàn)語音學(xué)的角度來講,正常人在日常表達(dá)中是有語流音變的,再加上發(fā)音規(guī)律中涉及唇形和舌位的變化,最后加上語境,很多句子和詞匯的在表達(dá)過程中唇形的變化就沒有那么的明顯,例如裊裊炊煙一詞,裊的發(fā)音在唇形的變化體現(xiàn)在從展唇到圓唇,但對于疊詞裊裊,如果想表現(xiàn)出語流的自然,唇形在建模系統(tǒng)中的采集就不會(huì)很明顯,呈現(xiàn)出來的就只是上下唇的輕微張合;再比如知識(shí)一詞,如果都按照展唇發(fā)音,就會(huì)出現(xiàn)聲音發(fā)出的時(shí)候唇部沒有變化。而在視頻互動(dòng)中缺少明顯的動(dòng)態(tài)表達(dá),似乎是AI 虛擬數(shù)字人與用戶交互的大忌,那該如何改變呢?在整個(gè)錄制的過程中也達(dá)成了一種“規(guī)范”,在遇到唇動(dòng)不明顯的疊詞時(shí),語速可以稍微放緩,唇動(dòng)的變化稍許夸張,動(dòng)程做到位,盡量體現(xiàn)出唇形的變化。對于zh、ch、sh 的組合發(fā)音,則可以輕微撮唇。在效果的呈現(xiàn)上,唇形的豐富度使得虛擬數(shù)字人在與用戶交互時(shí)更加自然流暢,機(jī)械感降低,擬人化程度也提高。但是與此同時(shí)實(shí)驗(yàn)語音學(xué)也需要大量的數(shù)據(jù)和實(shí)驗(yàn)來支持,來驗(yàn)證在多場景下部分唇動(dòng)的不規(guī)則變化是否會(huì)影響語音的語義理解,而這些數(shù)據(jù)和實(shí)驗(yàn)往往需要較高的成本和時(shí)間。

4.2 AI 虛擬數(shù)字人的發(fā)展為實(shí)驗(yàn)語音學(xué)的研究提供了新的方法和工具

例如,AI 虛擬數(shù)字人可以用于模擬不同條件下的語音信號(hào)和唇形數(shù)據(jù),為實(shí)驗(yàn)語音學(xué)的研究提供可靠的實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境。大部分的數(shù)字虛擬助手都采用自然語言理解技術(shù),可以解析用戶的語言,理解其含義,并作出相應(yīng)的回應(yīng),除了普通話和外國語的區(qū)別之外,國內(nèi)的少數(shù)民族語言和方言的使用情況復(fù)雜,口音問題也在普通話的表現(xiàn)明顯,中國的方言有一百多種,而這一百多種方言可以細(xì)分到一個(gè)具體的地點(diǎn),比如某市、某縣、某鎮(zhèn)、某村的方言,正所謂“十里不同音,百里不同俗”。中國有五十六個(gè)民族,在五十五個(gè)少數(shù)民族中,一個(gè)民族說一種語言的比較多,有的民族說兩種或兩種以上的語言,據(jù)統(tǒng)計(jì),我國少數(shù)民族語言的數(shù)目在七十種以上。面對如此龐大的數(shù)量,AI 虛擬數(shù)字人的廣泛應(yīng)用可以為實(shí)驗(yàn)語音學(xué)的多方面研究帶來助力。還是以度曉曉為例,度曉曉基于多模態(tài)交互技術(shù),可以實(shí)現(xiàn)語音識(shí)別、文本輸入、語音合成等多種交互方式,交互的頻次越多,數(shù)據(jù)就越豐富。度曉曉還具備機(jī)器翻譯能力,可以自動(dòng)翻譯語音或文本,為用戶提供多語言的服務(wù),這樣可以吸引更多使用不同語言的群體。此外,度曉曉采用自然語言理解技術(shù),可以解析用戶的語言,理解其含義,并作出相應(yīng)的回應(yīng)?;谏疃葘W(xué)習(xí)技術(shù),可以進(jìn)行語音識(shí)別、文本分類、情感分析等任務(wù),為用戶提供更加智能、個(gè)性化的服務(wù),互動(dòng)方式和服務(wù)越完善,擬人化程度越高,就能吸引更多的用戶使用。AI 虛擬數(shù)字人和實(shí)驗(yàn)語音學(xué)共同推動(dòng)語音技術(shù)和人工智能技術(shù)的發(fā)展和應(yīng)用。

結(jié)語

人工智能技術(shù)的飛速發(fā)展,使AI 虛擬數(shù)字人在各個(gè)領(lǐng)域的應(yīng)用都越來越廣泛,人機(jī)交互技術(shù)的不斷提升,讓AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)方面變得越來越重要。通過分析現(xiàn)有研究,筆者發(fā)現(xiàn)AI 虛擬數(shù)字人在用戶關(guān)系建構(gòu)中的應(yīng)用主要集中在以下幾個(gè)方面:用戶體驗(yàn)、情感傳遞、行為影響等。其中從發(fā)音人的視角來看,發(fā)音人在數(shù)據(jù)采集的工作中發(fā)揮重要作用,提供的聲音數(shù)據(jù)是人工智能技術(shù)的基礎(chǔ),為語音合成、語音識(shí)別、口語評測等技術(shù)提供訓(xùn)練和測試的數(shù)據(jù)。其聲音質(zhì)量、發(fā)音標(biāo)準(zhǔn)程度和口音特點(diǎn)等因素都會(huì)影響人工智能技術(shù)的性能和應(yīng)用效果。發(fā)音人可以為人工智能技術(shù)提供多語種、多地域的聲音數(shù)據(jù),使得人工智能技術(shù)的性能更加豐富和多樣化。也能為人工智能技術(shù)提供不同年齡、性別、文化背景等特征的聲音數(shù)據(jù),使得人工智能技術(shù)能夠更好地適應(yīng)不同的應(yīng)用場景和用戶需求,協(xié)助開發(fā)者進(jìn)行技術(shù)調(diào)試和優(yōu)化,提高人工智能技術(shù)的準(zhǔn)確性和可靠性,因此在AI 虛擬數(shù)字人的生產(chǎn)和設(shè)計(jì)過程中也參與解決了一個(gè)最核心的問題——與用戶的關(guān)系建構(gòu)。而在與實(shí)驗(yàn)語音學(xué)的相互影響中,也探討了更多理論在具體實(shí)踐中的差別與應(yīng)用,即唇動(dòng)的變化在擬人化表現(xiàn)和語義理解中的作用。最后,期望AI 虛擬數(shù)字人能夠應(yīng)用到更多的領(lǐng)域和場景中去。

猜你喜歡
主播發(fā)音語音
I’m a Little Teapot
第一次做小主播
魔力語音
基于MATLAB的語音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
我是小主播
我是小主播
我是小主播
Playing with h
梅河口市| 玉林市| 呼伦贝尔市| 晴隆县| 小金县| 易门县| 栾川县| 长治市| 剑阁县| 屯门区| 中方县| 昌平区| 五原县| 郧西县| 夹江县| 清水县| 馆陶县| 余姚市| 龙岩市| 丹巴县| 柳江县| 昆明市| 邵武市| 连山| 桐柏县| 朝阳市| 台南县| 眉山市| 即墨市| 敖汉旗| 合江县| 临漳县| 德保县| 乌审旗| 舞阳县| 西昌市| 阿克| 陈巴尔虎旗| 进贤县| 平阴县| 九江市|