郭 棟 肖愛(ài)云
(作者單位:西安工程大學(xué)新媒體藝術(shù)學(xué)院)
從農(nóng)業(yè)時(shí)代到工業(yè)時(shí)代再到信息化時(shí)代,人們口中的“互聯(lián)網(wǎng)+”是什么?“互聯(lián)網(wǎng)+”是互聯(lián)網(wǎng)思維的進(jìn)一步實(shí)踐。其實(shí),“互聯(lián)網(wǎng)+”就是“互聯(lián)網(wǎng)+各個(gè)傳統(tǒng)行業(yè)”。它指的是利用互聯(lián)網(wǎng)平臺(tái)和信息通信技術(shù)將互聯(lián)網(wǎng)與傳統(tǒng)產(chǎn)業(yè)等各個(gè)行業(yè)深度融合在一起,從而在新領(lǐng)域創(chuàng)造出新的發(fā)展生態(tài)。
從“你今天搶紅包了嗎?”“你今天逛淘寶了嗎?”到“網(wǎng)上號(hào)碼,不要等待”,這些盛行的網(wǎng)絡(luò)語(yǔ)言背后,顯示了互聯(lián)網(wǎng)對(duì)傳統(tǒng)行業(yè)的滲透,這種影響幾乎可以在每個(gè)行業(yè)中看到。
清早起床收到優(yōu)酷的一條推送,是每日的新聞簡(jiǎn)報(bào)。與以往不同的是,視頻的配音不再是專業(yè)的播音員而是人工智能配音;中午去魏家涼皮吃飯,吧臺(tái)時(shí)不時(shí)傳出類(lèi)似岳云鵬的訂單提示音,這個(gè)也是人工智能軟件的合成聲音;晚上開(kāi)車(chē)回家,車(chē)載導(dǎo)航使用的仍然是人工智能配音,人工智能配音在不知不覺(jué)中已經(jīng)融入人們的生活。例如,人工智能界的大紅人-蘋(píng)果手機(jī)的語(yǔ)音助手siri,先是由美國(guó)大媽蘇珊貝內(nèi)特用了一個(gè)多月的時(shí)間進(jìn)行錄制,而后技術(shù)人員使用電腦提取聲音,最后利用人工智能算法將其改寫(xiě)成新的短語(yǔ)和句子,至此全球幾千萬(wàn)用戶使用的siri語(yǔ)音系統(tǒng)就誕生了。
百度教育團(tuán)隊(duì)也利用人工智能語(yǔ)音合成技術(shù)代替?zhèn)鹘y(tǒng)配音做了一個(gè)關(guān)于阿基米德的教學(xué)視頻。“阿基米德,出生于公元前287年……”隨著阿基米德的肖像照片,伴著沉著鎮(zhèn)定不快不慢的男聲,給人一種肖像和聲音渾然一體的感覺(jué)。雖然視頻中的聲音是機(jī)器合成的,但它的聲音標(biāo)準(zhǔn)、節(jié)奏合適,斷句也很合理,其中,英語(yǔ)、數(shù)字和語(yǔ)氣詞等表達(dá)都非常出色。還有一款閱讀產(chǎn)品iReader,使用智能語(yǔ)音合成技術(shù)來(lái)實(shí)現(xiàn)語(yǔ)音朗讀效果,增強(qiáng)用戶的閱讀體驗(yàn)。目前,它支持中文普通話廣播,中英文混合廣播以及各種聲音。此外,以大型游戲《逍遙西游》為例,通過(guò)百度語(yǔ)音合成技術(shù)實(shí)現(xiàn)游戲場(chǎng)景中的公告、任務(wù)等信息發(fā)布,讓玩家玩游戲的同時(shí),也可接聽(tīng)新任務(wù)。
實(shí)踐證明,配音合成不僅可以用于視聽(tīng)閱讀,還可以用于教學(xué)視頻制作和課件制作場(chǎng)景。若是用在無(wú)需真人配音場(chǎng)景,或是低成本視頻制作,視頻配音的時(shí)間、人力等制作成本會(huì)大幅降低。
人工智能配音技術(shù)稱為“TTS”(文本到語(yǔ)音)。它是一種將計(jì)算機(jī)生成或外部輸入的文本信息轉(zhuǎn)換為可聽(tīng)、流暢的口頭輸出的技術(shù)。簡(jiǎn)單地說(shuō),文本被合成為一個(gè)聲音,即一個(gè)聲音文件。這種合成技術(shù)將用戶輸入的文本轉(zhuǎn)換為流暢自然的語(yǔ)音輸出,并支持語(yǔ)速、音調(diào)、音量和音頻設(shè)置。其打破了傳統(tǒng)的人機(jī)交互方式,使人們更加自然地溝通。在此技術(shù)基礎(chǔ)上,結(jié)合頂級(jí)聲學(xué)模型和語(yǔ)言模型,結(jié)合韻律處理,情感語(yǔ)音合成等技術(shù),最終呈現(xiàn)出自然而富有張力的配音。
AI語(yǔ)音合成技術(shù)支持中英文混合閱讀,并提供各種聲音包括男性、女性、情感和兒童,等等。
AI語(yǔ)音合成采用在線融合技術(shù),可以根據(jù)當(dāng)前網(wǎng)絡(luò)環(huán)境自動(dòng)判斷本地引擎或云端引擎,進(jìn)行語(yǔ)音合成。
在合成效果方面,良好的AI合成效果接近真人的聲音,流暢自然,非常富有表現(xiàn)力,能夠提供更舒適的聆聽(tīng)體驗(yàn)。
用戶只需要讀取軟件指定的文本兩分鐘,就可以模擬它們的電子聲音。它用于唱歌、背誦,并以所有可以想象的語(yǔ)言去模擬一切可能的聲音。由于這項(xiàng)技術(shù),今天許多技術(shù)行業(yè)將進(jìn)一步發(fā)展。
首先,所有種類(lèi)機(jī)器人的擬人化將更加成功,因?yàn)樗鼈兛梢阅M真實(shí)、可控的聲音模型。一個(gè)具體的例子是,在今年的國(guó)際消費(fèi)電子展上,ObEN和凱撒娛樂(lè)集團(tuán)與微信合作。在凱撒娛樂(lè)旗下的酒店中,提供名為“Ben”的虛擬客戶服務(wù)。入住凱撒娛樂(lè)集團(tuán)酒店的客人可以通過(guò)跟隨凱撒娛樂(lè)集團(tuán)的微信號(hào)與手機(jī)進(jìn)行互動(dòng),它可以用任何語(yǔ)音或語(yǔ)言回復(fù)。
針對(duì)人工智能配音的適應(yīng)性進(jìn)行了一些抽樣問(wèn)卷調(diào)查,結(jié)果顯示,對(duì)于資訊類(lèi)消息和任務(wù)播報(bào)場(chǎng)景等,63%的人從一開(kāi)始就沒(méi)有表現(xiàn)出不適應(yīng)和排斥;21%的人表示在使用過(guò)程中不適感慢慢消失,開(kāi)始習(xí)慣人工智能的配音;仍有16%的人堅(jiān)持認(rèn)為人工智能配音缺乏獨(dú)特的個(gè)性,更習(xí)慣真人配音。傳統(tǒng)的配音方法很大程度上依賴于配音演員,演員錄制的內(nèi)容是固定的。而這一切將可能因?yàn)槿斯ぶ悄芏淖?。一些看似?jiǎn)單的視頻也需要專業(yè)團(tuán)隊(duì)在制作、場(chǎng)地、設(shè)備、演員、配音等方面花費(fèi)數(shù)天時(shí)間,投資不小。除人聲合成外,AI配音在對(duì)環(huán)境音和景物音的模擬中更是表現(xiàn)出色,常常使人真假難辨。很長(zhǎng)一段時(shí)間、高價(jià)格、緩慢的過(guò)程、反復(fù)的確認(rèn)和修改是傳統(tǒng)配音的軟肋,尤其是高操作門(mén)檻讓很多普通用戶抱怨。人工智能軟件配音的誕生改變了傳統(tǒng)配音的弊端,操作門(mén)檻較低,配音效率較高,文字通過(guò)智能算法即刻變成人聲,這中間也省略了很多過(guò)程。隨著合成技術(shù)和專業(yè)設(shè)備的升級(jí),人工智能配音的服務(wù)能力也將提升到一個(gè)新水平。
但AI智能配音還是有一定的缺陷,首先它沒(méi)有情感也沒(méi)有思想,在現(xiàn)階段僅僅只是能夠做到更接近人聲,但缺乏配音員對(duì)于聲音形象和具體情節(jié)的塑造,所以適用場(chǎng)景有限。其次,在智能語(yǔ)音交互方面,它還無(wú)法達(dá)到完全理解用戶的程度。要充分了解用戶不僅需要高度的語(yǔ)音識(shí)別,還需要復(fù)雜的動(dòng)態(tài)語(yǔ)義理解,機(jī)器才能準(zhǔn)確理解用戶的意圖。這是兩種不同的技術(shù):語(yǔ)音識(shí)別僅將用戶的語(yǔ)音命令與嘈雜的背景聲音分開(kāi),確保原始命令正確;而語(yǔ)義理解更復(fù)雜,是增強(qiáng)用戶體驗(yàn)以支持不同用戶場(chǎng)景的關(guān)鍵步驟,能夠了解用戶的號(hào)令和真實(shí)需求,執(zhí)行上下文管理以及有效完成對(duì)話。
雖然智能化很方便也專業(yè)省事,但是遠(yuǎn)比人工服務(wù)冰冷機(jī)械很多,在越來(lái)越發(fā)達(dá)的科技背后,人們會(huì)更加懷念人與人之間的交流與溝通。例如,在智能手機(jī)流行的當(dāng)代時(shí)代,許多人呼吁放下手機(jī)與周?chē)娜嗣鎸?duì)面交流。所以,未來(lái)科技越發(fā)達(dá),越要重視人工服務(wù)的重要性。人工智能聽(tīng)起來(lái)仿佛很遙遠(yuǎn),但事實(shí)上已滲透到人們的日常工作和生活中。在不久的將來(lái),互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)、硬件和軟件優(yōu)化,甚至整個(gè)社會(huì)的參與,人工智能將離開(kāi)實(shí)驗(yàn)室真正發(fā)揮作用,成為改變?nèi)藗兩畹囊徊糠帧H斯ぶ悄茈m好,但也離不開(kāi)人,所以智能配音不僅不會(huì)成為威脅,還將為配音行業(yè)帶來(lái)更大的商機(jī)。