白秀梅,徐世民
(1.黑龍江省氣象服務(wù)中心,黑龍江 哈爾濱150036;2.牡丹江市氣象局,黑龍江 牡丹江 157000)
AI虛擬主播可定義為,在互聯(lián)網(wǎng)時代,結(jié)合人工智能與三維虛擬形象技術(shù),并可自主承擔策劃、編輯、制作、導播、主持等一系列工作的主播。是一個由計算機虛擬合成的、高度逼真的3D虛擬形象。
2018年搜狗和新華社聯(lián)合推出了全球首個AI合成主播。2018年5月,虛擬主持人“康曉輝”有著與真人相似的外形,不僅與央視記者江凱一同主持了《直播長江》安徽篇,還在現(xiàn)場進行了實時互動?!翱禃暂x”的一大亮點就在于其背后的3D虛擬形象自動生成技術(shù)(PTA),該技術(shù)讓人們擺脫了3D虛擬形象定制所需的高昂成本,只需普通攝像頭和一張自拍,就可實時生成與自己相似且更美觀的3D虛擬形象。
2019年春晚AI虛擬主持人團隊誕生,在這套AI虛擬主播的方案中,只需輸入一段既有的新聞文本,主播就可實時進行播報,且發(fā)音與唇形、面部表情等也完全吻合。
AI虛擬主播的實現(xiàn)方式大致可分為三種:
(1)“真人操作”模式,這一模式靈感來源于影視業(yè),需要配套真人演繹,前期需要進行大量的數(shù)據(jù)采集,中期需要動捕設(shè)備來配合播報,后期需要對視頻制作進行再加工。從前期準備到后期制作,成本耗費不高,該模式目前僅限于一些大媒體。
(2)“AR+AI”模式,靈感來源于全息投影,實現(xiàn)方式依賴于增強現(xiàn)實技術(shù)。這一模式,需要提前設(shè)置好AI虛擬主播的回答、動作、表情等,并通過其與真人主播的互動,來制造真實感。且因為AI虛擬主播是后期做上去的,所以現(xiàn)場真人主持與其互動時,就要靠“演”。但這種實現(xiàn)方式,對真人主持的要求極高,對后期制作的要求也很高,從應(yīng)用層面來看,要大范圍推廣非常難。
(3)全AI化模式,靈感來源于早期主持人,實現(xiàn)方式和效果卻比早期主持人好很多。這一模式分成定制AI虛擬主播和使用視頻制作后臺兩步,其將上述兩種方式中“人”的成分大大剔除,專注于用AI來替代人力,將虛擬主播的語音、情緒、動作,乃至后期視頻制作需要的圖片、視頻等都集成到后臺編輯系統(tǒng)中。目前來看,它是更接近全自動化,也更節(jié)省制作成本、提升制作效率的方式。
全動態(tài)3D虛擬形象生成——PTA技術(shù),即photo-to-avatar技術(shù),只需要在智能手機中導入1張人臉照片,即可自動生成一個全動態(tài)3D虛擬形象。P2A技術(shù)通過深度學習算法,利用了人臉的先驗知識,即使只是看到一個人的照片,也可以想象出這個人的長相及三維特征,全自動構(gòu)建出與照片中人臉高度匹配的全動態(tài)3D虛擬形象。虛擬形象五官與照片人物高度匹配,用戶還可自定義衣服、飾品、背景、光線等效果,創(chuàng)建過程簡單快速,生成的3D虛擬形象能被實時人臉表情跟蹤SDK所驅(qū)動。更重要的是,這種解決方案并不需要依賴于深度傳感攝像頭,普通的智能手機攝像鏡頭就能完成。
AI虛擬主播的技術(shù)核心是語音動畫合成技術(shù)(STA),只要輸入文字或語音,就可以生成具備精確發(fā)音口型的虛擬主播播報視頻。在這一基礎(chǔ)上,為了讓虛擬主播們有更加豐富的表現(xiàn)力,從人物造型、聲音風格、表情情緒、肢體動作等細節(jié),都給到更多表達的可能性,豐富人物的表現(xiàn)力。
90+常用肢體動作、17種人物音色、8種表情情緒、多元化人物造型,編輯們在后臺輸入文字內(nèi)容時,只需再點擊選擇所需的音色、情緒、動作,就可以智能輸出視頻。
科技的發(fā)展使得語音識別和自然語言處理的準確率都達到了97%以上,從而使虛擬主播達到了與真人主持一樣的口才。
讓虛擬人物播報呈現(xiàn)出自然狀態(tài),就必須解決口型匹配、表情匹配,乃至肢體動作匹配等問題。
虛擬主持人“康曉輝”在播報內(nèi)容的過程中,能做出和真人一樣的口型、表情等變化,頭部也能做出點頭、搖頭等一系列動作,這些并不是提前做好的動畫,而是可以實時操控的。這個實時驅(qū)動就是通過虛擬形象驅(qū)動技術(shù)實現(xiàn)的。
實時人臉表情跟蹤SDK能夠精確捕捉近50個面部肌肉運動節(jié)點,將面部表情同步至虛擬形象的面部上,從而實現(xiàn)人臉實時驅(qū)動虛擬形象。
在視頻生成效率上,在目前最新研發(fā)的GPU方案下,最快可實現(xiàn)1:1的視頻生成效率,即生成3 min的播報新聞,只需要3 min的渲染時間就能完成。所以在突發(fā)氣象災害的場合,AI虛擬主播也能快速應(yīng)對,快速生成視頻、穩(wěn)定輸出內(nèi)容、準確播報不出錯。
隨后將陰睛雨雪等氣象符號和各種預警信號加在畫面中,并且讓AI虛擬氣象主播與刮風下雨、鵝毛大雪、秋風掃落葉、春暖花開等自然景觀融為一體。通過AI虛擬氣象主播的豐富的表情、多樣的動作和精彩的配音讓市民在觀看時對天氣現(xiàn)象會有一個更加形象和深刻的認識,同時也更有利于氣象科普知識的宣傳。
一個優(yōu)秀的虛擬氣象主播具有以下特點:
(1)時效性強,可以根據(jù)各類氣象信息快速制作視頻,在5-10 min內(nèi)制作完成氣象影視節(jié)目,做到了快、穩(wěn)、準。
(2)可24 h播報,保證節(jié)目穩(wěn)定性及應(yīng)急需求。
(3)具有豐富的面部表情和肢體語言,使天氣預報生動、有趣。
(4)能把天氣預報中重要的內(nèi)容夸張地表現(xiàn)出來,給觀眾留下深刻的印象。非常有利于預警信號的發(fā)布和氣象科普知識的宣傳。
(5)生成的氣象影視節(jié)目數(shù)據(jù)量小,大大節(jié)省了存儲空間,對網(wǎng)絡(luò)帶寬要求很低,通過網(wǎng)絡(luò)傳輸?shù)诫娨暸_的速度很快。每年節(jié)省大量網(wǎng)費。
(6)與標準的虛擬主持人相比,節(jié)省了大量成本,制作效率大幅提升。