人工智能主播的前景分析
——基于新華社“AI合成主播”的思考

2019-11-18 10:03□文/張帥

中國記者 2019年5期

□ 文/張帥

內(nèi)容提要在技術(shù)發(fā)展、觀念更新及大眾需求的多重作用下，新華社“AI合成主播”以虛擬性與具身性的結(jié)合、技術(shù)性與藝術(shù)性的交融及主體性與客體性的互位等特質(zhì)應(yīng)運而生。人工智能主播將朝著定制化生產(chǎn)、交互化溝通、情感化發(fā)展、智慧化升級及多域化打造的方向進步，并進一步對真人主播、產(chǎn)業(yè)格局及大眾視野產(chǎn)生影響。

關(guān)于人工智能主播，筆者以為，它是一種以虛擬數(shù)字技術(shù)為支撐，在廣播、電視、互聯(lián)網(wǎng)等媒介中擔(dān)負著主持與播報任務(wù)的智能產(chǎn)品，除去“AI合成主播”這一分支外，亦包括多樣內(nèi)涵的媒介角色，從形式載體上說，既有媒體屏幕內(nèi)的虛擬形象，也有實體的機器主持人；從表達內(nèi)容上分類，既有服務(wù)于信息傳遞的新聞播報員，又有把控節(jié)目節(jié)奏與氛圍的綜藝從業(yè)者，凡此種種，不盡相同。

一、對“AI合成主播”興起動因的歸納

（一）何以可能：數(shù)字技術(shù)的快速發(fā)展

毋庸置疑，技術(shù)是媒介進步的直接前提，也是虛擬現(xiàn)實的核心支撐，這決定著一項新興產(chǎn)品“能不能”問世。關(guān)于“AI合成主播”的布局既是精心策劃之果，亦是水到渠成之事，正如其出品方新華社新媒體中心的何強所述：“一次偶然的機會，我們看到搜狗公司的相關(guān)人工智能產(chǎn)品，突然一個想法應(yīng)運而生：能否讓這種AI （人工智能）合成技術(shù)和新聞的應(yīng)用場景結(jié)合，在新華社落地，打造一款高逼真度的AI合成主播?！笨梢韵胍姡@是媒體與企業(yè)在各自優(yōu)勢基礎(chǔ)上打造技術(shù)與內(nèi)容升級的一次合作。

在“A I合成主播”備受矚目之前，已有多項數(shù)字虛擬技術(shù)為其奠基。例如，在語音層面，有智能語音識別和輸入技術(shù)，利用波形建模技術(shù)生成音頻，提升了合成音頻的表現(xiàn)力和真實度，使聲音更具情感；在形象層面，有擬人化的全息影像技術(shù)模態(tài)，通過模型優(yōu)化及多風(fēng)格數(shù)據(jù)的使用，實現(xiàn)更加逼真的表情合成、肢體動作與語義的恰當(dāng)匹配以及更加自然的唇動效果。與此同時，此項技術(shù)的核心在于搜狗公司的“搜狗分身”，這項技術(shù)可基于少量真實音視頻數(shù)據(jù)，快速遷移生成虛擬的分身模型。通俗來講，用戶使用時輸入一段文本，即可生成與真人無異的同步音視頻。

（二）何以應(yīng)該：研發(fā)觀念的迭代更新

“讓機器更像機器”是研發(fā)者在過往所秉持的一貫準(zhǔn)則，為的是讓機器為人服務(wù)的意識與本領(lǐng)日益強化，以此保持人之為人的尊嚴(yán)不受侵犯。顯然，機器試水主播領(lǐng)域的行為本身已在“該不該”的倫理問題上增進了討論的可能。在新技術(shù)沖擊下，讓機器人進行自我運作與深度學(xué)習(xí)的能力開始得到更多研發(fā)者的呼應(yīng)。

與此同時，機器能否擁有人性、如何擁有人性、擁有人性的何種側(cè)面目前仍然難以定論，但人所共識的是，機器擁有形似人的外部特征會容易得到用戶的親近，擁有類似人的運算方式會更貼心地為人類服務(wù)，這可從人工智能主播的發(fā)展歷程中窺見一斑。英國報業(yè)聯(lián)合會媒體公司的“安娜諾娃”、我國《科技新聞周刊》的“比爾鄧”、《光影周刊》的“小龍”同屬較早時期的人工智能，類似特點是動作遲滯、語言機械，一看、一聽便知是機器人，與人性化的表達間尚存一條鴻溝，也正因此，這些主播后來紛紛退出了歷史舞臺。及至后來，我國智能機器人“微軟小冰”被賦予了女性化的聲音，在東方衛(wèi)視開啟了主持生涯；央視羊年春晚的“陽陽”擁有了卡通化的形象，應(yīng)時應(yīng)景地向觀眾道賀新年好。此外，人工智能主播朝著人格化方向有所邁進，形成了從理解到生成再到表現(xiàn)的一套內(nèi)在運作體系，例如CCTV財經(jīng)頻道《交易時間》的“小白”和綜合頻道《生活圈》的“三寶”不再只是可有可無的擺設(shè)，均以其海量的大數(shù)據(jù)優(yōu)勢和真人主持人之間實現(xiàn)了問答互動?；蚴琴x予人工智能主播以人的容貌，或是植入人工智能主播中人的品格，都已證明“讓機器更像人”是革新研發(fā)的趨勢所在，“AI合成主播”亦是在這類層面上表達了設(shè)計者們較之以往的理念突破。

（三）何以需要：社會大眾的創(chuàng)新需求

歷史證明，先是人們在潛意識中對創(chuàng)新之物產(chǎn)生了某種需求，社會上后來才會出現(xiàn)了相應(yīng)的技術(shù)借以滿足，即便人們渾然不覺，這歸屬于“要不要”之討論。縱觀人類進步史，也是科學(xué)技術(shù)革命史。三次工業(yè)革命對于行業(yè)生產(chǎn)力的解放有目共睹，以人工智能為代表的科技革命如今方興未艾。數(shù)字化時代的生存境況下，人類亦渴望新鮮事物的嬗變。

社會學(xué)表明，社會成員對創(chuàng)新特征的認(rèn)知直接影響創(chuàng)新被采用的程度，“AI合成主播”的出現(xiàn)一石激起千層浪，也反之印證了在對于智能主播的傳播認(rèn)知上，用戶內(nèi)心深處潛藏的價值觀與對于新聞傳播學(xué)界的過往經(jīng)驗判斷達成了一致。從價值觀來看，“AI合成主播”不只是對于新聞主播群體的挑戰(zhàn)，更是在更廣闊的傳播意義上解除了人類對于聲音權(quán)力的壟斷，這符合當(dāng)前社會所倡導(dǎo)的非單一而多元的價值取向。從過往經(jīng)驗來講，真人主播在新聞傳遞中所表現(xiàn)出的形態(tài)固化難激起受眾興趣，“AI合成主播”在數(shù)據(jù)的準(zhǔn)確性與及時性、功能的完善性、信息的批量生產(chǎn)方面有著真人主播不可媲美的優(yōu)勢，它進一步擴充了人們對于信息傳播的選擇，滿足了人們深層次的心理需求。

二、對“AI合成主播”傳播特性的分析

（一）虛擬性與具身性的結(jié)合

2017年，新華網(wǎng)簽約的虛擬主播琥珀·虛顏通過3D全息投影打造，成為虛擬生命主機入駐的第一個虛擬生命形象。不同于此，新華社“AI合成主播”盡管仍需采取虛擬技術(shù)進行建模，但在現(xiàn)實生活中有了原本的依照。新華社最早的全仿真智能合成主持人與男性站立式合成主播“新小浩”，皆采于真人主播邱浩的聲音與外形，首個AI合成女主播“新小萌”的語料來源于主播屈萌，而英文主播的素材來源于主播張朝，這些都是真人痕跡盡顯的數(shù)字產(chǎn)物，體現(xiàn)出分明的“合成”特質(zhì)。從這個意義上看，“合成”的兩端相牽著真人與數(shù)字，營造出看似身體在場、實則始終缺席的主持傳播局面，此等分身借由技術(shù)實現(xiàn)了虛擬性與具身性的直觀彌合。

（二）技術(shù)性與藝術(shù)性的交融

從構(gòu)造方式來看，“AI合成主播”的誕生離不開技術(shù)性。一是表現(xiàn)在輸入層面，機器要采集人的面部表情和語音特征并標(biāo)簽化；二是輸出層面，機器通過學(xué)習(xí)自動生成仿真語音與合成表情，通過模型優(yōu)化及多風(fēng)格數(shù)據(jù)的使用，實現(xiàn)肢體動作與語義的恰當(dāng)匹配以及更加自然的表達效果，逼近真人播報形態(tài)。從表現(xiàn)理念來看，“AI合成主播”在追求藝術(shù)性的進步。它不再局限于單純的見字發(fā)聲，而是以真人為依托，以自然交互與知識計算為手段，開始學(xué)習(xí)重音、停連等規(guī)律，開始進軍音色、韻律、情感等多維度領(lǐng)域，以期不斷貼近人類口語傳播時表情達意的藝術(shù)特質(zhì)。

（三）主體性與客體性的互位

主播的功能是為了傳遞信息，播音主持藝術(shù)學(xué)中對于主播播報新聞的一致要求是力圖讓觀眾記住新聞內(nèi)容而忘卻主播本身的存在，此時的“AI合成主播”目標(biāo)應(yīng)是如此，常情卻并不盡然。盡可能將觀眾注意力聚焦于闡述內(nèi)容是退而求其次的客體性體現(xiàn)，但AI主播播報本身成了趣談，也是由于其目前難以避免的主體性特質(zhì)，即當(dāng)今“AI合成主播”播報新聞這一行為本身比所播報新聞的內(nèi)容更具看點，但這一智能產(chǎn)品的使用目的又確實是為了新聞的高效率傳播，正說明此間含有主體性與客體性的不斷交替。

三、對“AI合成主播”產(chǎn)生影響的反思

（一）沖擊真人主播，淘汰與改造并存

“AI合成主播”是一面鏡子，照出了真人主播的優(yōu)勢與不足。在它出現(xiàn)之前，真人主播的傳播格局大抵無甚變化；在它問世以后，人們不免拿真人主播與智能主播兩相比對，真人主播被遮蔽的缺點得以顯露，譬如流利地說廢話和無意義地串聯(lián)，這類缺乏思考的播報現(xiàn)象將及早退出市場。不過，目之所及的是，“AI合成主播”尚且缺乏對新聞細節(jié)敏感的捕捉力以及對于新聞現(xiàn)場即興的反應(yīng)力，工作范圍僅停留在有稿播讀的層面，難以取代優(yōu)秀的真人新聞主播。機器鞭長莫及之地正是人類亟待開發(fā)之所，這也間接消除了真人主播僅做見字發(fā)聲“肉喇叭”來謀得工作的可能性，外在壓力反會倒逼真人主播內(nèi)向提升。從這個角度出發(fā)，技術(shù)提供給真人主播的是有益的發(fā)展契機。

（二）調(diào)試產(chǎn)業(yè)格局，機制與流程革新

之于媒介產(chǎn)業(yè)，優(yōu)勝劣汰的準(zhǔn)則始終存在。顯而易見的是，新華社“AI合成主播”可以降低內(nèi)容生產(chǎn)成本，有效提升新聞視頻生產(chǎn)效率，滿足用戶多元的新聞需求，進一步提升權(quán)威聲音的影響力，但這并非新華社對于人工智能技術(shù)在新聞媒體領(lǐng)域的首次引入。2015年，新華社推出寫作機器人“快筆小新”，用于體育、財經(jīng)領(lǐng)域的新聞編寫；組建了國內(nèi)首個新聞無人機編隊，用于新聞航拍；2017年又推出媒體大腦，即智能媒體生產(chǎn)平臺，并持續(xù)更新版本。這些智能技術(shù)與“AI合成主播”將配合成為一套“組合拳”，拓展媒介采編與播發(fā)流程的多樣化傳播方式。播音員是傳媒場域中的一員，人工智能帶來的影響將不僅作用于播音專業(yè)的上下游，部門與行業(yè)間的部分架構(gòu)、人才隊伍、資源匹配等都有可能會順勢變化。此時的“AI合成主播”更有著“催化劑”一般的作用，催進學(xué)界專業(yè)建設(shè)的調(diào)整、催進業(yè)界產(chǎn)業(yè)資源的成熟。

（三）開拓大眾視野，信息與時代共振

無論身處何時何地，一代人認(rèn)知的視野終將局限于所處的時代與社會背景，而新一代受眾獲取的信息必將隨著歷史漸進而不斷演化。今日持有人工智能永遠無法趕超人類的觀點者，或是因為早已習(xí)慣了廣播電視等傳統(tǒng)媒體中的傳播范式，而對新技術(shù)所帶來的突變與隔閡感到不適，卻并不一定是技術(shù)本體的問題。試想，在AI主播不斷成熟、不斷推開的未來，新一代的受眾成長于此，其審美標(biāo)準(zhǔn)、美學(xué)眼光或許已經(jīng)截然不同?？紤]代際差異，上一代觀眾所接收到的媒介信息與所生存的成長環(huán)境中隨處是人，故習(xí)慣了人的表達方式，而本能地排斥機器人的發(fā)聲，但假如在未來，被智能網(wǎng)絡(luò)包圍的下一代觀眾早已對AI表達見怪不怪，自幼對于虛擬形象有認(rèn)知和寄托，如同收音機伴隨上一代人長大一般，或許會豁然開朗地明白：時代不同，場景不同，人工智能主播的發(fā)展將開拓出新的天地。

四、對人工智能主播未來發(fā)展趨勢的探討

不難覺察的是，現(xiàn)今“AI合成主播”以模擬為最基本的系統(tǒng)行為，其聲其形來源于真人主播，其言其語依托于指定稿件，其播其報則模擬于原型規(guī)律。人工智能主播若要有所作為，勢必先要突破模擬論的局限，向著進化論的方向邁進。

（一）定制化生產(chǎn)，確定準(zhǔn)度

“人人都有麥克風(fēng)”是指人人都有發(fā)聲的渠道與技術(shù)支撐，而在工業(yè)邏輯的不斷推進下，“AI合成主播”也有可能走向定制化的商業(yè)生產(chǎn)道路，進而實現(xiàn)“人人都有AI合成主播”的使用格局?！癆I合成主播”的核心技術(shù)“分身術(shù)”，不僅有助媒體主播實現(xiàn)分身播報新聞，更能幫助數(shù)以萬計的用戶進行分身成為主播。如同便攜的智能音箱，如同綜合測算用戶偏好來推送相關(guān)內(nèi)容的網(wǎng)頁瀏覽器和客戶端，“AI合成主播”的開發(fā)也將基于多維度的用戶標(biāo)簽畫像，參考用戶的不同特質(zhì)，生成內(nèi)容、發(fā)布信息，為固定使用者播報天氣與新聞，梳理熱點與資訊，更加準(zhǔn)確地滿足不同用戶間個性化的需求。

事實上，智能主播的定制化趨勢已在當(dāng)前初見端倪，譬如2019年1月31日，央視新聞聯(lián)合微軟推出了互動融媒體產(chǎn)品《你的生活A(yù)I為你唱作》，其中央視主播康輝和微軟AI智能女生曉曉聯(lián)合為用戶唱作專屬歌曲。系統(tǒng)先是采樣了康輝提前錄制的多首音樂，再根據(jù)用戶上傳的不同類別照片，分析其主題、環(huán)境、人物、顏色、表情等諸多元素，進而生成寫意性的歌詞，最后通過定制聲音技術(shù)經(jīng)由智能主播之口進行演繹，最終使得每個用戶得到了專屬于自己的作品。

（二）交互化溝通，增加黏度

主播所表現(xiàn)的信息，受眾是否愿意相信并接受，能否維持或提升媒體的傳播力、引導(dǎo)力、影響力、公信力，是新聞輿論的關(guān)鍵命題，搭建起人工智能主播與受眾之間的互信關(guān)系是一個嶄新的命題。回溯以往，傳統(tǒng)的電視新聞主播由于缺少實時互動的技術(shù)渠道，始終無法實現(xiàn)對于電視機前觀眾信息的即時反應(yīng)，這也被視為電視較于網(wǎng)絡(luò)媒體的一大不足。同樣，目前的“AI合成主播”是文字變成聲音的優(yōu)化，這樣的一套系統(tǒng)操作從傳播效果的角度來看并不高明，因為缺失了回饋的一環(huán)，仍像是自上而下的宣告。

人類需要交往，需要在交往當(dāng)中印證自己的主體性存在，在某種程度上，人和機器之間也存在著所謂的人與人之間的精神交流狀態(tài)。人工智能在交互化溝通上擁有天然的技術(shù)優(yōu)勢，只要有規(guī)律可循，訓(xùn)練對話便有路徑。人的各種愿望在心理學(xué)有解釋，高興時希望一同分享，失落時渴望得到安慰，無助時又想獲取力量，將類似于此的數(shù)據(jù)輸入人工智能的智庫之中，即便它不能盡善盡美地回應(yīng)對方需求，卻也能調(diào)動受眾的參與心理。例如東方衛(wèi)視的新聞直播節(jié)目《小冰搖搖吧》，其中的人工智能微軟“小冰”任主持人，不僅與真人搭檔彼此互動，還對網(wǎng)友開展了采訪。你來我往、你問我答，機器與人基于交互作用形成了傳播效果的不斷深化。

（三）情感化發(fā)展，貼合溫度

如科大訊飛副總裁章繼東所言，“我們一直想做一個溫暖的A I，把十一個明星的聲音還原出來，然后做到他的抖音賬號里去，明星就能直接呼喊抖音用戶的名字。粉絲們很奇怪，明星竟然喊我的名字了，這是一種溫暖的聲音。”盡管新近出現(xiàn)的“AI合成主播”在情感控制與表達上并不盡如人意，但“情感機器人的情感模型研究已成為目前的研究熱點和發(fā)展方向”[1]。只要有充足的數(shù)據(jù)樣本，人工智能主播可從人的語言、面部表情與肢體動作等各種反應(yīng)中推測出人當(dāng)下的情緒，進而給出回應(yīng)。研發(fā)者可以依托于心理學(xué)、語言學(xué)、社會學(xué)等人文背景進行設(shè)計，更能使智能主播體察與感知播報內(nèi)容的具體感情色彩，做出沉痛與欣然、鼓勵與憧憬等不同情緒的反應(yīng)，人文關(guān)懷便灌注其中。

不過，即便人工智能主播做到了有感情地表達層面，或興奮，或悲傷，或復(fù)雜的醞釀，在本質(zhì)上仍是算法之下的一場邏輯游戲，目前機器自身不擁有七情六欲，只是在假模假樣地表現(xiàn)而已。表達情感并非高級，困難的是生成情感，人類的腦神經(jīng)是如何運作方能生成不同的情感，后又準(zhǔn)確生動地表達，這將是人工智能在語言領(lǐng)域著力攻克的難點。

（四）智慧化升級，樹立高度

智慧是比智能更高的層次，它通常指“人們對事物與問題能迅速、機靈并正確地理解、處理與解決好的能力”[2]。未來的人工智能主播不能局限于做現(xiàn)實主播的仿生物，而應(yīng)創(chuàng)造性地發(fā)揮其優(yōu)勢；不能只是淺層信息的傳遞者，也應(yīng)擁有思辨意義的哲學(xué)意味。在技術(shù)成熟的情況下，人工智能主播不只是主播，更將集教師、朋友等多種角色于一身，傳達給用戶高級的哲學(xué)觀和方法論，使得人類更好地認(rèn)識和改造世界，這并不是沒有可能，例如，將某一領(lǐng)域內(nèi)頂尖專家的學(xué)識化為可量化、可執(zhí)行的算法，讓智能主播向其學(xué)習(xí)，它將超越行業(yè)半數(shù)從業(yè)者的水平，不難具備對相應(yīng)問題答疑解惑的能力。

人類對于知識的記憶和對于智識的創(chuàng)造往往需要多年積累與訓(xùn)練才能日臻成熟，而主播崗位的特性更是有著并非誰人皆可的考驗。與之相比，人工智能主播與大數(shù)據(jù)的無縫連接，使其十分有潛力發(fā)展成為一個背景知識極其豐富并能隨時調(diào)用的角色，它的標(biāo)簽背后是各種信息的聚合。此時，人工智能主播便不單單是真人的附庸，更兼導(dǎo)播、編輯等角色于一身，它對于信息整合后所進行的選擇取舍和表達，像任何一位真人主播一樣，代表了一家媒體所追求的思想意識高度。

（五）多域化打造，追求廣度

2019年的智能主播“新小浩”較之以往版本，一大進步是它不僅能坐著報消息，還能輔以手勢與姿態(tài)等多種肢體動作站起來，聲情并茂地播新聞。按照此等規(guī)律繼續(xù)推理，未來的智能主播行走播報、表現(xiàn)舞蹈也不是難題，除去新聞領(lǐng)域，文藝、娛樂、民生等多節(jié)目類別與訪談、企業(yè)發(fā)布等多現(xiàn)場場景都會存在人工智能主播的身影。

以娛樂領(lǐng)域為例，互聯(lián)網(wǎng)市場主體的一極是年輕的00后，娛樂產(chǎn)品成為其消除焦慮、享受生活的重要載體，而他們也比上一代更加易于接受新技術(shù)的存在。比如日本的虛擬歌手“初音未來”，它在全球的粉絲群體數(shù)以億計，足見其影響力，若把智能主播投放在娛樂領(lǐng)域，也可能會占據(jù)廣闊的市場份額。再以文藝領(lǐng)域為例，一般來講，藝術(shù)家被認(rèn)為是最不可能被機器替代的職業(yè)之一，這源于“人尚未研究透徹藝術(shù)，機器怎會領(lǐng)先一步”的疑惑。然而，近年來藝術(shù)與科技的結(jié)合得到了越來越充分的探討和運用。在人為的監(jiān)督狀態(tài)下，人工智能如何通過深層學(xué)習(xí)技術(shù)不斷延展獨立的想象力成為一道時代的命題。以藝術(shù)的眼光來打造人工智能主播，使其潤澤發(fā)現(xiàn)美、創(chuàng)作美、品評美等多重意蘊，是更具挑戰(zhàn)卻也更有意義的歷程，否則，其精神價值空間的開發(fā)將難以為繼。

【注釋】

[1] 李穎.人工智能技術(shù)在播音主持領(lǐng)域的應(yīng)用[J].中國廣播電視學(xué)刊，2018（11）：80-82.

[2] 陳如明.智能、智慧及人工智能發(fā)展問題與向超級人工智能邁進的務(wù)實發(fā)展策略[J].數(shù)字通信世界，2016（02）：33-42.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能主播的前景分析——基于新華社“AI合成主播”的思考

一、對“AI合成主播”興起動因的歸納

（一）何以可能：數(shù)字技術(shù)的快速發(fā)展

（二）何以應(yīng)該：研發(fā)觀念的迭代更新

（三）何以需要：社會大眾的創(chuàng)新需求

二、對“AI合成主播”傳播特性的分析

（一）虛擬性與具身性的結(jié)合

（二）技術(shù)性與藝術(shù)性的交融

（三）主體性與客體性的互位

三、對“AI合成主播”產(chǎn)生影響的反思

（一）沖擊真人主播，淘汰與改造并存

（二）調(diào)試產(chǎn)業(yè)格局，機制與流程革新

（三）開拓大眾視野，信息與時代共振

四、對人工智能主播未來發(fā)展趨勢的探討

（一）定制化生產(chǎn)，確定準(zhǔn)度

（二）交互化溝通，增加黏度

（三）情感化發(fā)展，貼合溫度

（四）智慧化升級，樹立高度

（五）多域化打造，追求廣度