許舟
2018年11月7日,新華社聯(lián)合搜狗公司在第五屆世界互聯(lián)網(wǎng)大會(huì)上發(fā)布了全球首個(gè)合成新聞主播——“AI合成主播”,這是通過提取真人主播新聞播報(bào)中的聲音、唇形及表情動(dòng)作(如挑眉、聳鼻)等特征,建立語音數(shù)據(jù)庫和面部信息數(shù)據(jù)庫,讓計(jì)算機(jī)深度學(xué)習(xí)并聯(lián)合建模訓(xùn)練而成。該項(xiàng)技術(shù)能夠?qū)⑺斎氲闹杏⑽奈谋咀詣?dòng)生成相應(yīng)內(nèi)容的視頻,并確保視頻中音頻和表情、唇動(dòng)保持自然一致,展現(xiàn)與真人主播無異的信息傳達(dá)效果[1]。
期間在會(huì)上演示的主持畫面視頻,行云流水,惟妙惟肖,著實(shí)賺足了眼球,引發(fā)了世界范圍內(nèi)的密切關(guān)注,CNN、路透社、華盛頓郵報(bào)等多家媒體同步進(jìn)行了報(bào)道。
而僅僅過了4個(gè)月,在之前的AI合成主播基礎(chǔ)上,新華社聯(lián)合搜狗公司再次推出了“站立式”AI合成女主播,并參與全國(guó)兩會(huì)的新聞報(bào)道,在兩會(huì)期間,共計(jì)播報(bào)稿件236條,累計(jì)瀏覽量超1.3億。冬奧會(huì)也將有AI合成主播亮相。而廣大民眾在驚奇之余,更多地則想知道這名“一夜爆紅”的新主播到底是如何誕生的。
從配角到主播
眾所周知,一般人想要當(dāng)上新聞主播都得歷經(jīng)層層考驗(yàn),AI合成主播當(dāng)然也不例外,在此之前,它也度過了一段漫長(zhǎng)的“上崗之旅”。一開始,它只是作為其他主播的得力助手,通常只會(huì)有聲音出現(xiàn),或者為之匹配一個(gè)量身定做的虛擬形象輔助播報(bào),實(shí)際上,這就是大眾熟知的語音助手,比如曾在東方衛(wèi)視擔(dān)任天氣預(yù)報(bào)員的微軟小冰,就屬于此類。
那么這類“語音助手”如何才能晉升成為正式主播呢?簡(jiǎn)單來說,與真人主播類似,“工作經(jīng)驗(yàn)”和“能力”是不可少的,前者對(duì)于“語音助手”來說并不困難,畢竟目前市面上語音助手百花齊放,隨便叫上一個(gè)都能和你嘮上老半天,因此它們需要提升的是文本識(shí)別準(zhǔn)確度及語音合成的精度,而輔助主播播報(bào)稿件正是為了獲取更多的數(shù)據(jù)樣本,不斷改進(jìn)。
除此之外,還需要一點(diǎn)“運(yùn)氣”,俗話說“三分天注定,七分靠打拼”。隨著人工智能技術(shù)(AI)逐漸成熟,同時(shí)也為了及時(shí)響應(yīng)中央提高輿論引導(dǎo)能力的要求,主流媒體將該技術(shù)引入新聞生產(chǎn),以AI為基礎(chǔ)、以人機(jī)協(xié)作為特征、以大幅提高生產(chǎn)傳播效率為重點(diǎn)[2],讓“語音助手”搖身一變,從配角正式成為了在崗主播。
自此,AI合成主播與其他主播一起,為公眾帶來及時(shí)、準(zhǔn)確的新聞報(bào)道,并且相較于真人主播,AI合成主播可24小時(shí)不間斷播報(bào),從而提升電視新聞制作效率,降低成本,還能在突發(fā)報(bào)道中快速生成新聞視頻,提高報(bào)道時(shí)效和質(zhì)量[2],而這背后自然離不開技術(shù)的進(jìn)步。
真人主播的“分身”
如果仔細(xì)觀察AI合成主播不難發(fā)現(xiàn),在它們身上隱隱能感受到幾分熟悉,沒錯(cuò),因?yàn)檫@些AI合成主播的原型大多來源于真人主播,比如首發(fā)的“新小浩”是以新華社主持人邱浩為原型,后續(xù)發(fā)布的AI合成主播“新小微”則是以新華社記者趙琬微為原型。雖然是虛擬的,但AI合成主播仿若他們的克隆分身,不管是看上去還是聽上去都非常逼真,而要達(dá)到這樣的效果,離不開兩大關(guān)鍵技術(shù):語音合成技術(shù)和圖像生成技術(shù)。
其一是語音合成技術(shù),通過人工智能技術(shù)識(shí)別文本,并基于用戶的音頻數(shù)據(jù),合成一條語音。但我們不想要機(jī)械化的電子音,而希望得到的是有溫度、有情緒的人聲,那么如何得到人的語音呢?
語音主要有三個(gè)要素:音色、韻律和信息。音色是指這段話出自誰之口,韻律就是我們的說話節(jié)奏、音高和音強(qiáng),信息當(dāng)然就是指說了什么內(nèi)容。如果想要模仿某段語音,可以將這三要素拆解、組合,從而得到一段與原語音非常接近的合成聲。
當(dāng)然,其中的過程也并非說起來這么簡(jiǎn)單,實(shí)現(xiàn)起來還需要AI算法的支持,例如谷歌的SV2TTS算法,它的工作流程分為三步,Encoder(獲取語音)、Synthesizer(合成語音)、Vocoder(生成語音)。首先通過Encoder模塊提取音色向量,然后由Synthesizer模塊將語音中的文本再合成一段新的語音,同時(shí)加上提取的音色向量,最后由Vocoder模塊轉(zhuǎn)換成我們最終聽到的聲音。至此,建立起語音文本(輸入文本)與輸出音頻信息之間的關(guān)聯(lián)。
其二是圖像生成技術(shù),通過動(dòng)態(tài)捕捉、人臉關(guān)鍵點(diǎn)檢測(cè)、特征提取、重構(gòu)等技術(shù),對(duì)人臉表情、情緒進(jìn)行學(xué)習(xí)和建模,并完善輸入文本、音頻、視頻等信息的映射關(guān)系,生成分身視頻。
在兩項(xiàng)技術(shù)的配合下,最終實(shí)現(xiàn)AI合成主播。雖然未來可期,但從目前的應(yīng)用來說,AI合成主播缺少真人主播的創(chuàng)造性和思考,只能按照系統(tǒng)指令機(jī)械地輸出對(duì)應(yīng)文字和語義,無法結(jié)合上下文進(jìn)行自主判別[3];同時(shí),由于圖像傳輸技術(shù)的不穩(wěn)定性,有時(shí)會(huì)出現(xiàn)口型對(duì)不上或是肢體穿模,對(duì)受眾產(chǎn)生“恐怖谷效應(yīng)”。所以,無論從技術(shù)還是用戶觀感上,AI合成主播都還有很大的進(jìn)步空間。
參考文獻(xiàn)
[1]新華網(wǎng).全球首個(gè)“AI合成主播”在新華社上崗[EB/OL]. (2018-11-07)[2021-12-19].http://media.people.com.cn/n1/2018/1107/c40606-30387542.html.
[2]周信達(dá).從人工智能的應(yīng)用嘗試看新聞業(yè)的未來趨勢(shì):以AI合成主播為例[J].青年記者,2019(9):2.
[3]何強(qiáng).人工智能在新聞?lì)I(lǐng)域應(yīng)用的新突破:從全球首個(gè)“AI合成主播”談起[J].新聞與寫作,2019(5):3.