国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何成為一名AI合成主播

2021-04-16 16:39許舟
科研成果與傳播 2021年3期
關(guān)鍵詞:真人助手音頻

許舟

2018年11月7日,新華社聯(lián)合搜狗公司在第五屆世界互聯(lián)網(wǎng)大會(huì)上發(fā)布了全球首個(gè)合成新聞主播——“AI合成主播”,這是通過提取真人主播新聞播報(bào)中的聲音、唇形及表情動(dòng)作(如挑眉、聳鼻)等特征,建立語音數(shù)據(jù)庫和面部信息數(shù)據(jù)庫,讓計(jì)算機(jī)深度學(xué)習(xí)并聯(lián)合建模訓(xùn)練而成。該項(xiàng)技術(shù)能夠?qū)⑺斎氲闹杏⑽奈谋咀詣?dòng)生成相應(yīng)內(nèi)容的視頻,并確保視頻中音頻和表情、唇動(dòng)保持自然一致,展現(xiàn)與真人主播無異的信息傳達(dá)效果[1]。

期間在會(huì)上演示的主持畫面視頻,行云流水,惟妙惟肖,著實(shí)賺足了眼球,引發(fā)了世界范圍內(nèi)的密切關(guān)注,CNN、路透社、華盛頓郵報(bào)等多家媒體同步進(jìn)行了報(bào)道。

而僅僅過了4個(gè)月,在之前的AI合成主播基礎(chǔ)上,新華社聯(lián)合搜狗公司再次推出了“站立式”AI合成女主播,并參與全國(guó)兩會(huì)的新聞報(bào)道,在兩會(huì)期間,共計(jì)播報(bào)稿件236條,累計(jì)瀏覽量超1.3億。冬奧會(huì)也將有AI合成主播亮相。而廣大民眾在驚奇之余,更多地則想知道這名“一夜爆紅”的新主播到底是如何誕生的。

從配角到主播

眾所周知,一般人想要當(dāng)上新聞主播都得歷經(jīng)層層考驗(yàn),AI合成主播當(dāng)然也不例外,在此之前,它也度過了一段漫長(zhǎng)的“上崗之旅”。一開始,它只是作為其他主播的得力助手,通常只會(huì)有聲音出現(xiàn),或者為之匹配一個(gè)量身定做的虛擬形象輔助播報(bào),實(shí)際上,這就是大眾熟知的語音助手,比如曾在東方衛(wèi)視擔(dān)任天氣預(yù)報(bào)員的微軟小冰,就屬于此類。

那么這類“語音助手”如何才能晉升成為正式主播呢?簡(jiǎn)單來說,與真人主播類似,“工作經(jīng)驗(yàn)”和“能力”是不可少的,前者對(duì)于“語音助手”來說并不困難,畢竟目前市面上語音助手百花齊放,隨便叫上一個(gè)都能和你嘮上老半天,因此它們需要提升的是文本識(shí)別準(zhǔn)確度及語音合成的精度,而輔助主播播報(bào)稿件正是為了獲取更多的數(shù)據(jù)樣本,不斷改進(jìn)。

除此之外,還需要一點(diǎn)“運(yùn)氣”,俗話說“三分天注定,七分靠打拼”。隨著人工智能技術(shù)(AI)逐漸成熟,同時(shí)也為了及時(shí)響應(yīng)中央提高輿論引導(dǎo)能力的要求,主流媒體將該技術(shù)引入新聞生產(chǎn),以AI為基礎(chǔ)、以人機(jī)協(xié)作為特征、以大幅提高生產(chǎn)傳播效率為重點(diǎn)[2],讓“語音助手”搖身一變,從配角正式成為了在崗主播。

自此,AI合成主播與其他主播一起,為公眾帶來及時(shí)、準(zhǔn)確的新聞報(bào)道,并且相較于真人主播,AI合成主播可24小時(shí)不間斷播報(bào),從而提升電視新聞制作效率,降低成本,還能在突發(fā)報(bào)道中快速生成新聞視頻,提高報(bào)道時(shí)效和質(zhì)量[2],而這背后自然離不開技術(shù)的進(jìn)步。

真人主播的“分身”

如果仔細(xì)觀察AI合成主播不難發(fā)現(xiàn),在它們身上隱隱能感受到幾分熟悉,沒錯(cuò),因?yàn)檫@些AI合成主播的原型大多來源于真人主播,比如首發(fā)的“新小浩”是以新華社主持人邱浩為原型,后續(xù)發(fā)布的AI合成主播“新小微”則是以新華社記者趙琬微為原型。雖然是虛擬的,但AI合成主播仿若他們的克隆分身,不管是看上去還是聽上去都非常逼真,而要達(dá)到這樣的效果,離不開兩大關(guān)鍵技術(shù):語音合成技術(shù)和圖像生成技術(shù)。

其一是語音合成技術(shù),通過人工智能技術(shù)識(shí)別文本,并基于用戶的音頻數(shù)據(jù),合成一條語音。但我們不想要機(jī)械化的電子音,而希望得到的是有溫度、有情緒的人聲,那么如何得到人的語音呢?

語音主要有三個(gè)要素:音色、韻律和信息。音色是指這段話出自誰之口,韻律就是我們的說話節(jié)奏、音高和音強(qiáng),信息當(dāng)然就是指說了什么內(nèi)容。如果想要模仿某段語音,可以將這三要素拆解、組合,從而得到一段與原語音非常接近的合成聲。

當(dāng)然,其中的過程也并非說起來這么簡(jiǎn)單,實(shí)現(xiàn)起來還需要AI算法的支持,例如谷歌的SV2TTS算法,它的工作流程分為三步,Encoder(獲取語音)、Synthesizer(合成語音)、Vocoder(生成語音)。首先通過Encoder模塊提取音色向量,然后由Synthesizer模塊將語音中的文本再合成一段新的語音,同時(shí)加上提取的音色向量,最后由Vocoder模塊轉(zhuǎn)換成我們最終聽到的聲音。至此,建立起語音文本(輸入文本)與輸出音頻信息之間的關(guān)聯(lián)。

其二是圖像生成技術(shù),通過動(dòng)態(tài)捕捉、人臉關(guān)鍵點(diǎn)檢測(cè)、特征提取、重構(gòu)等技術(shù),對(duì)人臉表情、情緒進(jìn)行學(xué)習(xí)和建模,并完善輸入文本、音頻、視頻等信息的映射關(guān)系,生成分身視頻。

在兩項(xiàng)技術(shù)的配合下,最終實(shí)現(xiàn)AI合成主播。雖然未來可期,但從目前的應(yīng)用來說,AI合成主播缺少真人主播的創(chuàng)造性和思考,只能按照系統(tǒng)指令機(jī)械地輸出對(duì)應(yīng)文字和語義,無法結(jié)合上下文進(jìn)行自主判別[3];同時(shí),由于圖像傳輸技術(shù)的不穩(wěn)定性,有時(shí)會(huì)出現(xiàn)口型對(duì)不上或是肢體穿模,對(duì)受眾產(chǎn)生“恐怖谷效應(yīng)”。所以,無論從技術(shù)還是用戶觀感上,AI合成主播都還有很大的進(jìn)步空間。

參考文獻(xiàn)

[1]新華網(wǎng).全球首個(gè)“AI合成主播”在新華社上崗[EB/OL]. (2018-11-07)[2021-12-19].http://media.people.com.cn/n1/2018/1107/c40606-30387542.html.

[2]周信達(dá).從人工智能的應(yīng)用嘗試看新聞業(yè)的未來趨勢(shì):以AI合成主播為例[J].青年記者,2019(9):2.

[3]何強(qiáng).人工智能在新聞?lì)I(lǐng)域應(yīng)用的新突破:從全球首個(gè)“AI合成主播”談起[J].新聞與寫作,2019(5):3.

猜你喜歡
真人助手音頻
On Doors
Egdon Heath (Extract from The Return of the Native)
Beethoven’s Centenary1 (Extract)
真人秀F2
變色龍
小助手
COCO×讀者 真人親身拍攝體驗(yàn)
發(fā)明速遞
靈感助手表彰大會(huì)(二)
靈感助手表彰大會(huì)(一)
台东县| 汪清县| 德庆县| 潼南县| 甘谷县| 西平县| 景东| 墨竹工卡县| 石景山区| 阳山县| 竹北市| 临海市| 绥宁县| 华坪县| 禄丰县| 乐亭县| 怀安县| 太仓市| 罗田县| 大渡口区| 腾冲县| 四会市| 衢州市| 正定县| 镇坪县| 蒙山县| 临安市| 平罗县| 涟源市| 行唐县| 博罗县| 无锡市| 洪雅县| 福清市| 威信县| 沽源县| 淅川县| 堆龙德庆县| 内丘县| 苗栗市| 迭部县|