□ 文/何 強(qiáng)
內(nèi)容提要 新華社聯(lián)合搜狗發(fā)布全球首個合成新聞主播——“AI合成主播”火爆全球,本文披露了其誕生過程和諸多細(xì)節(jié),以及下一步完善方向。
2018年11月7日,在第五屆世界互聯(lián)網(wǎng)大會上,新華社聯(lián)合搜狗發(fā)布全球首個合成新聞主播——“AI合成主播”,運用最新人工智能技術(shù),“克隆”出與真人主播擁有同樣播報能力的“分身”,此舉在全球AI合成領(lǐng)域?qū)崿F(xiàn)了技術(shù)創(chuàng)新和突破,開創(chuàng)了新聞領(lǐng)域?qū)崟r音頻與AI真人形象合成的先河。
逼真度極高的外形、24小時不知疲憊的播報,首次主持的畫面視頻,一經(jīng)發(fā)布,就在媒體圈和科技圈引起了不小的反響,CNN、華盛頓郵報等世界范圍內(nèi)的知名媒體以多種形式高度關(guān)注。
隨著移動互聯(lián)網(wǎng)的發(fā)展和人工智能的普及,媒體行業(yè)正發(fā)生著深刻的劇變。與擁有最前沿技術(shù)的互聯(lián)網(wǎng)企業(yè)合作,是一個新媒體人必備的素質(zhì)。一次偶然的機(jī)會,我們看到搜狗公司的相關(guān)人工智能產(chǎn)品,突然一個想法應(yīng)運而生:能否讓這種AI(人工智能)合成技術(shù)和新聞的應(yīng)用場景結(jié)合,在新華社落地,打造一款高逼真度的“AI合成主播”?
何為“AI合成主播”?簡而言之,它是通過提取真人主播新聞播報視頻中的聲音、唇形、表情動作等特征,運用語音、唇形、表情合成以及深度學(xué)習(xí)等技術(shù)聯(lián)合建模訓(xùn)練而成。它可以將所輸入的文本自動生成相應(yīng)內(nèi)容的視頻,并確保視頻中音頻和表情、唇動保持自然一致,展現(xiàn)與真人主播無異的播報效果。
于是,新華社和搜狗公司迅速成立了聯(lián)合項目組。合作雙方本著“新華社為主導(dǎo)、搜狗為主體、協(xié)同推進(jìn)、服務(wù)大眾”的方針,約定新華社為搜狗公司合成主播相關(guān)技術(shù)應(yīng)用在全球范圍內(nèi)的首家合作伙伴,搜狗公司是新華社合成主播項目的唯一技術(shù)主體。搜狗公司依托領(lǐng)先的人臉識別、人臉建模、語音合成及深度學(xué)習(xí)等多項前沿技術(shù)優(yōu)勢,生產(chǎn)出首個運用AI技術(shù)實現(xiàn)的合成主播,該合成主播可通過輸入文字,以指定的中英文主播形象和聲音生成音、視頻進(jìn)行播報。
合作方面,在項目制作中,新華社提供必需的采編團(tuán)隊和制作場地,保證符合技術(shù)要求的主持人音、視頻樣本錄制時間,提供符合制作要求的歷史音、視頻主持人數(shù)據(jù);在此基礎(chǔ)上合作制作的新聞節(jié)目將在新華社平臺上播 出。
搜狗公司為項目的執(zhí)行提供全方位的技術(shù)支撐和服務(wù);項目執(zhí)行中需使用搜狗已有的最先進(jìn)的算法和軟件進(jìn)行開發(fā),提供高配置服務(wù)器,并在項目執(zhí)行期間對項目技術(shù)層面事宜進(jìn)行維護(hù)升 級。
“AI合成主播”這一創(chuàng)新型的新聞傳播方式,以加快人工智能在媒體應(yīng)用為原則,以智能技術(shù)為基礎(chǔ),人機(jī)協(xié)作為特征,在幾方的共同努力下順利推 進(jìn)。
為了保證幾方合作打造的“AI合成主播”的效果,在音視頻錄制方面,我們以新華社中文主播邱浩為原型,錄制了正臉播報視頻數(shù)據(jù)以及大量的高質(zhì)量音頻數(shù)據(jù)。搜狗公司技術(shù)人員根據(jù)所需錄制素材進(jìn)行了文本設(shè)計,素材錄制過程中,也給予了協(xié)助和質(zhì)量把控,同時對錄制數(shù)據(jù)進(jìn)行了篩選和標(biāo)注。
為擴(kuò)大海外傳播影響力,在語種方面,我們需要合成主播既能播放中文又能播報英文,于是又以新華社英文主播張朝為原型,錄制了英文播報素材。在設(shè)計場景方面,考慮了場景覆蓋和音素覆蓋。
視頻錄制有很高的要求,主播不能明顯晃動,錄制時語氣、表情自然具體。音頻錄制方面,以陳述句為主,自然流暢,無雜音、噴麥等。
經(jīng)過前幾個月緊張的開發(fā),幾方開展了緊密協(xié)作,中文和英文“合成主播”的配套軟件已經(jīng)開發(fā)制作完成,幾百字的內(nèi)容在短時間內(nèi)即可生成短視頻。此項技術(shù)的整體完成度達(dá)到預(yù)期效果,擬在第五屆世界互聯(lián)網(wǎng)大會上首次對外公開亮相。
11月7日,一張黑色人影的圖片在微信朋友圈傳開,配文為:“新華社將有‘大動作’,神秘人將C位出道。他是誰?”這是新華社為“AI合成主播”發(fā)布進(jìn)行的一次圖片預(yù)熱報道,稿件閱讀量迅速突破十萬+。大家紛紛掃碼參與,希望了解更多關(guān)于神秘人物的消息,許多人在新華社客戶端和微信公號后臺留言猜測:到底是誰?
當(dāng)天下午,在第五屆世界互聯(lián)網(wǎng)大會上,“AI合成主播”正式出道。由新華社和搜狗公司以新品發(fā)布會的形式聯(lián)合對外發(fā)布該產(chǎn)品,這一天,神秘人物C位出道,“國社”迎來了史上第一個合成主播。
隨后,新華社客戶端開設(shè)“AI合成主播”專欄,并播發(fā)了《AI合成主播丨排爆、狙擊、戰(zhàn)場救援!您想看的爆燃場面這里都有》《AI合成主播丨上海這一周 確實不簡單!》等一系列報道,實現(xiàn)量產(chǎn)。至此,“AI合成主播”正式成為新華社報道隊伍中一員。
從主播“真人”到“分身”,“AI合成主播”可謂是經(jīng)歷了“九九八十一關(guān)”,有了多項人工智能前沿技術(shù)的“加持”,才走到了今天。業(yè)內(nèi)人士認(rèn)為,“AI合成主播”將大大加快新聞報道時效,降低新聞制作成本,對傳媒行業(yè)影響深遠(yuǎn)。
“AI合成主播”也受到全球媒體關(guān)注,路透社、BBC、CNN、《泰晤士報》、福克斯新聞、今日俄羅斯電視臺、法蘭西24電視臺、《新聞周刊》《洛杉磯時報》、美國國家公共電臺等媒體以文字、視頻等方式進(jìn)行了大篇幅報道。
深圳大學(xué)傳播學(xué)院教授馮廣超認(rèn)為,新華社“AI合成主播”廣受好評,把AI在新聞生產(chǎn)的運用從幕后衍生到臺前,讓更多的視頻新聞可以提供給用戶,這無疑對這個時代新聞的傳播方式、傳播效果、傳播效率提出了新聞要求,給行業(yè)帶來挑戰(zhàn)的同時也帶來了更大的機(jī)遇。中德人工智能研究院院長崔巖表示,此次新華社的“AI合成主播”的出現(xiàn),是結(jié)合自身資源優(yōu)勢而實現(xiàn)的一次重大突破。將技術(shù)的應(yīng)用真正面向用戶,為用戶帶來具有高欣賞價值的新聞產(chǎn)品。
《參考消息》援引外媒報道稱,中國的新聞主播可能面臨一些新的競爭——人工智能機(jī)器人在播報新聞時可以模仿人的面部表情和舉止。
路透社報道稱,這個AI主播是以中國新聞主播邱浩為原型的,它身穿黑西裝打著領(lǐng)帶。這是中國旨在提升其在人工智能技術(shù)方面能力的一部分。
江蘇教育電視臺蔡海濤說,“AI合成主播”未來有可能發(fā)展成一個隨時調(diào)用數(shù)據(jù)庫背景知識,與受眾自然互動的新聞主播。在過去,這樣有經(jīng)驗有學(xué)識的新聞主播需要經(jīng)過多年的歷練,而借助AI技術(shù),立刻就能生成,并應(yīng)用到多個領(lǐng)域,這種知識型交互能力將重新定義新聞主播的概念。
英國《獨立報》網(wǎng)站則稱,新華社的“AI合成主播”是一位栩栩如生的數(shù)字化播報員,可以通過模仿真人主播的形象和聲音朗讀文本內(nèi)容。
在受到贊許的同時,有些媒體認(rèn)為“AI合成主播”還需要進(jìn)一步完善。
中國傳媒大學(xué)新媒體研究院研究員徐琦說,目前形象的面部表情還不夠豐富、語調(diào)方面也不夠有溫度,下一步可以在面部表情、聲調(diào)語氣等方面做進(jìn)一步提升。英國謝菲爾德大學(xué)人工智能和機(jī)器人學(xué)榮譽教授諾埃爾·夏基表示,AI主播是一個不錯的嘗試,今后我們會看到它不斷改進(jìn)。美國《赫芬頓郵報》網(wǎng)站稱,新華社似乎知道AI主播是需要不斷完善的,正如AI主播在其首次播報中所強(qiáng)調(diào)的那樣。它說:“作為一名正在研發(fā)中的人工智能新聞主播,我知道我需要改進(jìn)的還有很多。謝謝。”
這是新華社的一次探索,也是一次贏得世界關(guān)注的機(jī)遇。此前像這樣火爆海外的新媒體產(chǎn)品在國內(nèi)還并不多見。目前,“AI合成主播”已被運用到進(jìn)博會、世界互聯(lián)網(wǎng)大會等重要新聞事件,以及突發(fā)、科技、社會、文化等各領(lǐng)域的新聞報道,“AI合成主播”視頻在新華社中英文客戶端、新華社微信公眾號、中國新華新聞電視網(wǎng)(CNC)、新華視點微博、新華社中國網(wǎng)事微博、新華社“微悅讀”小程序播發(fā)后,再次引起廣泛關(guān)注。