如何成為一名AI合成主播

2021-04-16 16:39許舟

科研成果與傳播 2021年3期

許舟

2018年11月7日，新華社聯(lián)合搜狗公司在第五屆世界互聯(lián)網(wǎng)大會(huì)上發(fā)布了全球首個(gè)合成新聞主播——“AI合成主播”，這是通過提取真人主播新聞播報(bào)中的聲音、唇形及表情動(dòng)作（如挑眉、聳鼻）等特征，建立語音數(shù)據(jù)庫和面部信息數(shù)據(jù)庫，讓計(jì)算機(jī)深度學(xué)習(xí)并聯(lián)合建模訓(xùn)練而成。該項(xiàng)技術(shù)能夠?qū)⑺斎氲闹杏⑽奈谋咀詣?dòng)生成相應(yīng)內(nèi)容的視頻，并確保視頻中音頻和表情、唇動(dòng)保持自然一致，展現(xiàn)與真人主播無異的信息傳達(dá)效果[1]。

期間在會(huì)上演示的主持畫面視頻，行云流水，惟妙惟肖，著實(shí)賺足了眼球，引發(fā)了世界范圍內(nèi)的密切關(guān)注，CNN、路透社、華盛頓郵報(bào)等多家媒體同步進(jìn)行了報(bào)道。

而僅僅過了4個(gè)月，在之前的AI合成主播基礎(chǔ)上，新華社聯(lián)合搜狗公司再次推出了“站立式”AI合成女主播，并參與全國(guó)兩會(huì)的新聞報(bào)道，在兩會(huì)期間，共計(jì)播報(bào)稿件236條，累計(jì)瀏覽量超1.3億。冬奧會(huì)也將有AI合成主播亮相。而廣大民眾在驚奇之余，更多地則想知道這名“一夜爆紅”的新主播到底是如何誕生的。

從配角到主播

眾所周知，一般人想要當(dāng)上新聞主播都得歷經(jīng)層層考驗(yàn)，AI合成主播當(dāng)然也不例外，在此之前，它也度過了一段漫長(zhǎng)的“上崗之旅”。一開始，它只是作為其他主播的得力助手，通常只會(huì)有聲音出現(xiàn)，或者為之匹配一個(gè)量身定做的虛擬形象輔助播報(bào)，實(shí)際上，這就是大眾熟知的語音助手，比如曾在東方衛(wèi)視擔(dān)任天氣預(yù)報(bào)員的微軟小冰，就屬于此類。

那么這類“語音助手”如何才能晉升成為正式主播呢？簡(jiǎn)單來說，與真人主播類似，“工作經(jīng)驗(yàn)”和“能力”是不可少的，前者對(duì)于“語音助手”來說并不困難，畢竟目前市面上語音助手百花齊放，隨便叫上一個(gè)都能和你嘮上老半天，因此它們需要提升的是文本識(shí)別準(zhǔn)確度及語音合成的精度，而輔助主播播報(bào)稿件正是為了獲取更多的數(shù)據(jù)樣本，不斷改進(jìn)。

除此之外，還需要一點(diǎn)“運(yùn)氣”，俗話說“三分天注定，七分靠打拼”。隨著人工智能技術(shù)（AI）逐漸成熟，同時(shí)也為了及時(shí)響應(yīng)中央提高輿論引導(dǎo)能力的要求，主流媒體將該技術(shù)引入新聞生產(chǎn)，以AI為基礎(chǔ)、以人機(jī)協(xié)作為特征、以大幅提高生產(chǎn)傳播效率為重點(diǎn)[2]，讓“語音助手”搖身一變，從配角正式成為了在崗主播。

自此，AI合成主播與其他主播一起，為公眾帶來及時(shí)、準(zhǔn)確的新聞報(bào)道，并且相較于真人主播，AI合成主播可24小時(shí)不間斷播報(bào)，從而提升電視新聞制作效率，降低成本，還能在突發(fā)報(bào)道中快速生成新聞視頻，提高報(bào)道時(shí)效和質(zhì)量[2]，而這背后自然離不開技術(shù)的進(jìn)步。

真人主播的“分身”

如果仔細(xì)觀察AI合成主播不難發(fā)現(xiàn)，在它們身上隱隱能感受到幾分熟悉，沒錯(cuò)，因?yàn)檫@些AI合成主播的原型大多來源于真人主播，比如首發(fā)的“新小浩”是以新華社主持人邱浩為原型，后續(xù)發(fā)布的AI合成主播“新小微”則是以新華社記者趙琬微為原型。雖然是虛擬的，但AI合成主播仿若他們的克隆分身，不管是看上去還是聽上去都非常逼真，而要達(dá)到這樣的效果，離不開兩大關(guān)鍵技術(shù)：語音合成技術(shù)和圖像生成技術(shù)。

其一是語音合成技術(shù)，通過人工智能技術(shù)識(shí)別文本，并基于用戶的音頻數(shù)據(jù)，合成一條語音。但我們不想要機(jī)械化的電子音，而希望得到的是有溫度、有情緒的人聲，那么如何得到人的語音呢？

語音主要有三個(gè)要素：音色、韻律和信息。音色是指這段話出自誰之口，韻律就是我們的說話節(jié)奏、音高和音強(qiáng)，信息當(dāng)然就是指說了什么內(nèi)容。如果想要模仿某段語音，可以將這三要素拆解、組合，從而得到一段與原語音非常接近的合成聲。

當(dāng)然，其中的過程也并非說起來這么簡(jiǎn)單，實(shí)現(xiàn)起來還需要AI算法的支持，例如谷歌的SV2TTS算法，它的工作流程分為三步，Encoder（獲取語音）、Synthesizer（合成語音）、Vocoder（生成語音）。首先通過Encoder模塊提取音色向量，然后由Synthesizer模塊將語音中的文本再合成一段新的語音，同時(shí)加上提取的音色向量，最后由Vocoder模塊轉(zhuǎn)換成我們最終聽到的聲音。至此，建立起語音文本（輸入文本）與輸出音頻信息之間的關(guān)聯(lián)。

其二是圖像生成技術(shù)，通過動(dòng)態(tài)捕捉、人臉關(guān)鍵點(diǎn)檢測(cè)、特征提取、重構(gòu)等技術(shù)，對(duì)人臉表情、情緒進(jìn)行學(xué)習(xí)和建模，并完善輸入文本、音頻、視頻等信息的映射關(guān)系，生成分身視頻。

在兩項(xiàng)技術(shù)的配合下，最終實(shí)現(xiàn)AI合成主播。雖然未來可期，但從目前的應(yīng)用來說，AI合成主播缺少真人主播的創(chuàng)造性和思考，只能按照系統(tǒng)指令機(jī)械地輸出對(duì)應(yīng)文字和語義，無法結(jié)合上下文進(jìn)行自主判別[3];同時(shí)，由于圖像傳輸技術(shù)的不穩(wěn)定性，有時(shí)會(huì)出現(xiàn)口型對(duì)不上或是肢體穿模，對(duì)受眾產(chǎn)生“恐怖谷效應(yīng)”。所以，無論從技術(shù)還是用戶觀感上，AI合成主播都還有很大的進(jìn)步空間。

參考文獻(xiàn)

[1]新華網(wǎng).全球首個(gè)“AI合成主播”在新華社上崗[EB/OL]. （2018-11-07）[2021-12-19].http：//media.people.com.cn/n1/2018/1107/c40606-30387542.html.

[2]周信達(dá).從人工智能的應(yīng)用嘗試看新聞業(yè)的未來趨勢(shì)：以AI合成主播為例[J].青年記者，2019（9）：2.

[3]何強(qiáng).人工智能在新聞?lì)I(lǐng)域應(yīng)用的新突破：從全球首個(gè)“AI合成主播”談起[J].新聞與寫作，2019（5）：3.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

如何成為一名AI合成主播